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陈寅恪 先生 说 : “一 时 代 之 学 术 ， 必 有 其 新 材料 与 新 问题 。 取 用 此 材料 ， 以 研 求 问题 ， 则 为 此 时 代 学 术 之 新 潮流 。 治 学 之 
士 ， 得 预 于 此 潮流 者 ， 谓 之 预 沅 〈 信 用 佛教 切 果 之 名 ) 。 其 未 得 预 者 ， 谓 之 未 入 流 。” 对 今天 的 信息 技术 而 言 ，“ 新 材料 ” 即 为 
大 数据 ， 而 “新 问题 ” 则 是 产生 于 “新 材料 ”之 上 的 新 的 应 用 需求 。 


当下 大 数据 技术 发 展 变化 日 新 月 异 ， 大 数据 应 用 已 经 遂 及 工业 和 社会 生活 方方面面 ， 原 有 的 数据 管理 理论 体系 与 大 数据 产业 
应 用 之 前 的 友 距 日 益 加 大 ， 而 工业 界 对 于 大 数据 人 才 的 需求 却 极 剧 增加 。 大 数据 专业 人 才 的 培养 是 新 一 轮 科 技 较 量 的 基础 ， 蜗 等 
院 校 承担 着 大 数据 人 才 培 养 的 重任 。 因 此 大 数据 相关 课程 将 逐 新 成 为 国内 高 校 计算 机 相关 专业 的 重要 课程 。 近 来 越 来 越 多 的 阮 校 
急切 地 开设 大 数据 方面 的 人 才 培 养 计划 ， 以 求 占 得 “ 先 机 ”。 但 纵 观 大 数据 人 才 培 养 课 程 体 系 尚 不 尽 如 人 意 ， 多 是 已 有 课程 
的 “ 冷 拼 盘 ”， 顶 多 是 加 点 “调料 ”， 原 材料 没有 新 鲜 感 。 现 阶段 无 论 多 么 新 多 么 好 的 人 才 培 养 计划 ， 都 只 能 在 六 七 十 年 代 编 写 
的 计算 机 知识 体系 上 施 教 ， 无 法 把 当下 的 大 数据 市 给 我 们 的 新 思维 方式 和 知识 体系 传导 给 学 生 。 


为 此 我 们 意识 到 ， 缺 少 基 础 性 工作 和 原始 积累 ， 融 难以 培养 符合 工业 界 需 要 的 大 数据 复合 型 和 交叉 型 人 才 。 因 此 急需 在 思维 
和 理念 方面 进行 转变 ， 为 现 有 的 课程 和 知识 体系 按 大 数据 应 用 需求 进行 延展 和 补充 ， 加 入 新 的 可 以 因材施教 的 知识 模块 。 每 一 位 
学 者 都 有 责任 和 义务 去 为 此 “ 增 砖 添 瓦 ”。 


在 此 背景 下 ， 我 们 策划 和 组 织 了 这 套 大 数据 管理 丛书， 希望 能 够 塔 养 数据 思维 的 理念 ， 对 原 有 数据 管理 知识 体系 进行 完善 和 
补 邯 ， 面 向 新 的 技术 热点 ， 提 出 新 的 知识 体系 /知识 点 ， 拉 近 教 材 体系 与 大 数据 应 用 的 距离 ， 为 受 教 者 应 对 现代 技术 市 来 的 大 数 
据 领 域 的 新 间 题 和 挑战 ， 扫 除 障 碍 。 现 时 要 求学 者 编写 大 部 头 闭 作 费 时 费力 ， 不 太 现实 。 这 使 我 们 想到 二 十 世纪 八 九 十 年 代 风靡 
一 时 的 五角 丛书 ”， 它 大 小 精湛 ， 题 材 丰 富 ， 选 题 新 颖 ， 恰 到 好 处 地 迎合 了 那个 时 代入 们 对 新 知识 的 渴 扭 ， 因 此 成 为 了 那个 时 
代 的 共同 记忆 。 所 以 我 们 受 此 启 友 ， 选 择 了 这 种 更 容易 实现 的 “五 角 从 书 ” 的 形式 ， 促 使 学 者 们 力所能及 地 把 各 自 工 作 中 的 积累 
呈现 给 大 家 ， 为 大 数据 人 才 拱 养 的 “大 厦 ” 增 砖 添 瓦 。 我 们 相信 ， 假 以 时 日 ， 这 些小 部 头 的 香 作 汇 溪 成 河 ， 必 将 对 未 来 大 数据 人 
才 培 养 起 到 “基石 ”的 作用 。 


从 书 定位 : 面向 新 形势 下 的 大 数据 扩 术 上 友 展 对 人 才 培 养 提出 的 挑战 ， 旨 在 为 学 术 研 究 和 人 才 塔 关 提 供 可 供 参考 的 “基石 ”。 
时 然 是 一 些 不 起 眼 的 “砖头 瓦 块 ”， 但 可 以 为 大 数据 人 才 塔 养 积累 可 用 的 新 模块 (新 素材 ) ， 弥 补 原 有 知识 体系 与 应 用 问题 之 前 
的 鸿沟 ， 力 图 为 现 有 的 数据 管理 知识 得 漏 补缺 ， 聚 少 成 多 ， 最 终 形成 适应 大 数据 扩 术 上 友 展 和 人 才 培 养 的 知识 体系 和 教材 基础 。 


从 书 特点 : 从 书 借鉴 Morgan & Claypool Publishers 出 版 的 Synthesis Lectures on Data Management， 特 色 在 于 选 题 
新 头 ， 短 小 精湛 。 选 题 新 闲 即 面向 技术 热 上 忠 ， 弥 补 现 有 知识 体系 的 漏洞 和 不 足 (或 延伸 或 补充 ) ， 内 容 洱 善 大 数据 过 理 的 理论 、 
方法 、 技 术 等 诸多 方面 。 短 小 精湛 则 不 求 系 统 性 和 完备 性 ， 但 每 本 书 要 上 自 成 知识 体系 ， 重 在 前述 基本 问题 和 方法 ， 并 辅 以 例题 说 
明 ， 便 于 施 教 。 


从 书 组 织 : 从 书 采用 国际 学 术 出 版 通行 的 主编 负责 制 ， 为 此 特 邀 中 国人 民 大 学 孟 小 峰 教 授 (email: 
xfmeng@ruc.edu.cn) 担任 丛书 主编 ， 负 责 丛 书 的 整体 规划 和 选 题 。 责 任 编辑 为 机 械 工 业 出 版 社 华 章 分 社 姚 蔓 编 辑 (email: 


yaolei@hzbook.com) 。 


在 此 期 望 有 志 于 大 数据 人 才 培 养 并 具有 丰富 理论 和 实践 经 验 的 学 者 和 专业 人 员 能 够 加 入 到 这 套 书 的 编写 工作 中 来 ， 共 同 为 中 
国 大 数据 研究 和 人 才 塔 养 贡献 目 己 的 智慧 和 力量 ， 共 贷 属 于 我 们 目 己 的 “时 代 记 忆 ”。 欢 迎 读 者 对 我 们 的 出 版 工作 提出 宝 贯 晶 见 
和 建议 。 
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推荐 序 一 


短文 本 理解 是 伴随 看 搜索 引擎 、 社 区 网 络 及 聊天 机 器 人 等 应 用 场景 而 兴起 的 一 个 研究 课题 。 它 是 近 尝 年 的 一 个 研究 热 氮 ， 且 
对 未 来 人 工 智 能 的 有 友 展 有 重要 的 影响 。 由 于 短文 本 字 词 少 、 旷 义 大 、 不 遵守 语法 规则 等 特点 ， 传 统 目 然 语言 处 理 技术 如 句法 分 析 
器 等 难以 直接 应 用 于 短文 本 。 因 此 ， 人 研究 人 员 不 得 不 另辟蹊径 来 解决 机 器 理解 短文 本 的 问题 。 


从 2009 年 起 ， 我 在 微软 亚洲 研究 阮 领导 一 个 小 组 从 事 短 文本 的 研究 工作 。2010 年 7 月 ， 本 书 作者 王 仲 远 加 入 微软 亚洲 研究 
院 并 参与 这 方面 的 研究 。 我 们 及 组 里 其 他 同事 共同 开发 了 一 个 Web 规 模 的 知识 库 系 统 Probase， 尝 试 解决 知识 尤其 是 常识 的 获 
取 、 表 示 及 应 用 问题 。 我 们 认为 “概念 ”对 于 理解 短文 本 的 语义 至 天 重要 ， 正 如 纽约 大 学 著名 心理 学 教授 Gregory L.Murphy 在 
其 代表 性 著作 《The Big Book of Concepts》 中 提 到 “Concepts are the glue that holds our mental world together" ( 概 
念 是 我 们 思想 的 粘 合剂 ) 。 通 过 Probase， 我 们 尝试 着 将 一 些 心理 学 研究 的 课题 可 计算 化 ， 并 取得 了 很 大 的 成 果 。2011 年 ， 仲 
远 开始 在 中 国人 民 大 学 攻读 在 职 博 士 生 ， 我 很 采 盏 又 成 为 他 的 博士 生 导 师 。 之 后 ， 仲 远 在 围绕 Probase 的 工程 项 目 、 学 术 研 究 中 
不 断 突 飞 猛 进 ， 取 得 了 一 个 又 一 个 成 果 。 


2013 年 ， 我 离开 微软 ， 仲 远 接手 了 Probase 项 目 。 他 不 断 深 化 基于 Probase 所 构建 的 短文 本 理解 概念 化 模型 ， 并 获得 了 国际 
香 名 学 术 会 议 ICDE 2015 最 佳 论文 奖 。 在 2016 年 的 国际 自然 语言 处 理学 术 会 议 ACL 上 ， 仲 远 和 我 共同 作 了 一 个 报 
告 "Understanding Short Texts”。 我 们 将 短文 本 理解 的 万 法 简要 分 为 隐 性 模型 和 显 性 模型 两 大 类 。 隐 性 模型 主要 是 基于 词 向 
量 和 深度 神经 网 络 的 模型 ， 其 主要 缺点 是 模型 为 一 个 “ 黑 例子 ”， 结果 党 党 难以 具体 化 解释 。 而 另 一 方面 ， 显 性 模型 主要 依赖 于 
知识 库 系 统 或 语义 网 络 ， 其 可 解释 性 强 于 隐 性 模型 ， 但 知识 的 获取 及 表示 是 一 大 挑战 。 尤 其 是 知识 质量 与 覆盖 率 ， 更 是 会 直接 影 
咱 显 性 模型 的 最 终 效果 。 


我 非常 高 兴 地 看 到 仲 远 将 这 些 年 的 研究 成 果 整 理 成 书 。 这 本 书 对 短文 本 概念 化 问题 进行 了 详细 的 介绍 ， 既 有 单 实 体 概念 化 模 
型 ， 也 有 短文 本 概念 化 模型 ， 并 介绍 了 概念 化 模型 的 一 些 典 型 应 用 。 全 书 结 构 合理 ， 系 统 性 强 ， 并 且 本 书 许多 章节 都 包含 了 大 量 
实例 与 插图 ,便于 读者 理解 背后 的 拉 术 模型 ， 也 使 得 本 书 有 很 强 的 实用 性 和 阅读 性 。 


希望 本 书 能 为 知识 图 谱 、 目 然 语 言 处 理 、 信 息 检 索 、 人 工 智 能 等 相关 领域 研究 人 员 和 开 友 人 员 提 供 重 要 参考 。 我 愿 全 力 推荐 
本 书 给 广大 读者 。 


Haixun Wang 
Facebook Research Scientist & Engineering Manager 
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短文 本 是 互联 网 上 广泛 存在 的 一 种 文本 数据 ， 如 搜索 引擎 吾 询 、 广 告 及 推荐 系统 关键 词 、 社 区 网 络 聊天 记录 、 产 品 的 用 户 评 
论 等 。 然 而 ， 由 于 短文 本 “ 短 ” 的 特性 ， 使 得 机 器 理解 其 语义 面临 极 大 的 挑战 。 以 英文 搜索 引擎 的 坦 询 为 例 ，97% 的 搜索 查询 所 
包 合 的 词 数 少 于 或 等 于 8 个 ， 其 中 更 是 有 63% 的 搜索 查询 只 包含 一 两 个 词 。 因 此 对 于 短文 本 ， 机 器 必须 从 极为 有 限 的 上 下 文中 ， 
皖 试 挖掘 出 丰富 而 有 效 的 信息 ， 这 是 天 乎 机 器 人 工 智能 的 基础 性 研究 ， 对 许多 实际 应 用 场景 具有 至 天 重要 的 意义 。 


本 书 围绕 短文 本 理解 的 各 项 需求 及 挑战 ， 创 造 性 地 提出 了 概念 化 模型 作为 短文 本 理解 的 核心 扩 术 ， 为 解决 机 器 短文 本 理解 这 
一 问题 迈 出 了 重要 的 一 步 。 本 书 涵 蓄 了 如 下 创新 性 研究 内 容 : 1) 提出 了 基于 概率 的 属性 提取 与 推导 ， 并 挖 据 了 动词 、 形 容 词 等 
非 实体 词 与 概念 之 间 的 语义 关联 ， 为 短文 本 理解 葛 定 了 基础 ， 完 善 了 短文 本 理解 所 需 的 语义 网 络 ; 2) 针对 短文 本 理解 的 概念 化 
模型， 通过 解决 短文 本 中 单 实体 和 多 实体 的 概念 化 问题 ， 克 服 了 短文 本 较 稀 踊 、 噪 声 多 、 层 义 大 的 特点 ， 将 短文 本 转 为 机 器 可 以 
计算 的 一 种 显 性 概念 向 量 表示 方法 ， 这 成 为 短文 本 理解 的 一 种 新 的 解决 万 案 ; 3) 针对 短文 本 中 的 主题 词 与 修饰 词 检测 问题 ， 提 
出 了 一 种 基于 概念 化 、 面 向 开放 领域 的 无 监督 检测 机 制 。 


本 书 作者 王 仲 远 是 我 的 博士 生 ， 也 曾 是 微软 亚洲 研究 院 最 年 轻 的 主管 研究 员 之 一 。 他 在 微软 亚洲 研究 院 工 作 以 及 博士 研究 生 
就 读 期 间 在 顶级 学 术 会 议和 期 刊 上 友 表 了 一 系列 与 短文 本 相关 的 论文 ， 并 在 提炼 和 系统 化 这 些 工作 的 基础 上 写 束 了 其 博士 论文 。 
作为 其 导师 ， 我 很 欣慰 地 看 到 他 不 鲜 尘 百 地 将 其 博士 论文 整理 成 册 ， 将 其 中 的 理论 和 技术 介绍 给 更 多 的 读者 ， 从 而 推动 国内 相关 
研究 领域 的 友 展 。 


全 书 结构 清晰 ， 深 入 浅 出 ， 以 大 量 实例 来 解释 其 背后 的 技术 难点 与 解决 方案 ， 并 展示 了 在 实际 广告 系统 中 的 应 用 实例 。 相 信 
本 书 对 广大 的 科研 工作 者 、 研 究 生 及 从 事 相关 工作 的 算法 工程 师 都 具有 重要 的 参考 价值 。 我 向 广大 读者 大 力 推荐 这 本 书籍 ! 


国家 “ 千 人 计划 ”特聘 专家 ， 中 国人 民 大 学 信息 学 院 院 长 
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当今 世界 ， 每 天 都 有 数 十 亿 的 短文 本 产生 ， 比 如 搜索 查询 、 广 告 关键 字 、 标 签 、 微 博 、 问 答 、 聊 天 记录 等 。 与 长 文本 (如 文 
档 ) 不 同 ， 短 文本 具有 如 下 特性 : 前 先 ， 短 文本 通常 不 遵守 语法 规则 ; 其 次 ,短文 本 由 于 字数 少 ， 本 身 所 包含 的 信息 也 较 少 。 前 
者 使 得 传统 的 目 然 语言 处 理 方法 不 能 直接 适用 于 短文 本 ， 而 后 者 则 意味 着 短文 本 理解 不 得 不 依赖 于 外 部 信息 。 简 而 言 之 ， 短 文本 
具有 较 稀 咏 、 噪 声 大 、 层 义 多 的 特点 ， 因 而 机 器 理解 短文 本 面临 极 大 的 挑战 。 


而 另 一 方面 ， 随 着 近 些 年 人 工 智能 近 术 的 重大 突破 ， 克 其 是 大 规模 知识 图 谐 以 及 深度 学 习 技术 的 出 现 ， 使 得 机 器 理解 短文 本 
出 现 新 的 日光 。 研 究 者 们 提出 了 许多 将 文本 转换 成 机 器 所 能 理解 的 内 部 表示 方法 。 这 些 万 法 可 以 分 为 三 类 : 1) 隐 性 知识 表示 方 
法 ， 如 基于 深度 学 习 严 生 的 向 量 表示 法 ; 2) 半 显 性 知识 表示 方法 ， 如 主题 模型 ;3) 显 性 知识 表示 方法 ， 如 概念 化 模型 。 这 些 
万 法 各 有 优 缺 后 。 一 般 而 言 ， 前 两 类 方法 适用 广泛 ， 已 有 大 干 成 熟 应 用 ， 但 其 所 产生 的 模型 难以 被 人 类 理解 ， 因 此 优化 较为 困 


难 。 而 后 一 类 方法 正 考 勃 友 展 ， 清 现 出 许多 新 的 模型 ， 并 已 在 许多 大 型 互联 网 公司 如 Google、 微 软 内 部 使 用 。 如 果 读 者 对 这 几 
类 万 法 的 概况 有 进一步 了 解 的 兴趣 ， 可 以 参见 本 书 作 者 在 国际 目 然 语言 处 理 硕 级 学 术 会 议 ACL 2016 上 的 一 个 专题 教程 
(Tutorial) 报告 “Understanding Short Texts" (理解 短文 本 ) (主页 地 

Hb: http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/) 。 


本 书 主要 介绍 基于 知识 图 谱 进 行 显 性 短文 本 理解 的 方法 ， 即 由 笔者 提出 的 创新 性 概念 化 模型 ， 并 对 不 同情 况 下 的 概念 化 过 程 
进行 深入 分 析 与 探讨 。 本 书 许多 草书 的 内 容 依 托 于 友 表 在 国际 相关 领域 硕 级 学 术 会 议 或 期 刊 上 的 技术 论文 ， 并 已 实际 应 用 于 微软 
的 众多 产品 中 (如 必 应 搜索 、 广 告 系统 、MSN 碍 询 推荐 、Office 36555) 。 


尤为 值得 一 提 的 是 ， 笔 者 在 微软 亚洲 研究 院 领 导 开 上 友 多 年 的 大 型 知识 库 系统 Probase 也 于 近期 由 微软 研究 院 正 式 友 布 。 友 布 
的 正式 名 称 为 “Microsoft Concept Graph" (微软 概念 图 谱 ) ， 网址 为 https://concept.research.microsoft.com/。 有 兴趣 
的 读者 可 以 访问 该 友 布 网 址 以 获得 更 多 详细 信息 ， 本 书 许多 章节 中 的 模型 都 是 构建 在 这 个 概念 图 谐 乙 上 ( 书 中 称 其 为 知识 库 、 语 
义 网 络 或 Probase) 。 读 者 也 可 以 从 该 上 友 布 网 址 中 获得 微软 从 海量 互联 网 网 页 中 所 挖掘 出 的 知识 图 谱 数 据 ， 以 便 作 进一步 研究 使 
FA. 


本 书 的 内 容 和 组 织 结构 


本 书 内 容 依照 数据 层 、 模 型 层 和 应 用 层 逐 步 展开 介绍 。 其 中 ， 第 2 章 为 数据 层 ， 第 3~6 章 为 模型 层 ， 第 7 章 为 应 用 层 。 
本 书 组 织 结构 如 下 : 

第 1 章 为 “短文 本 理解 及 其 应 用 ”。 主 要 介绍 短文 本 理解 的 研究 育 景 及 意义 ， 分 析 短 文本 理解 的 研究 现状 。 

第 2 章 刀 “基于 概率 的 属性 提取 与 推导 ”。 主 要 介绍 一 种 在 语义 网 络 层 ， 为 百 万 级 的 概念 推导 出 属性 的 方法 。 


第 3 章 为 “ 单 实体 概念 化 模型 ”。 介 绍 了 一 种 基于 典型 性 和 点 互信 息 (PMI) 将 单 实体 映射 到 概念 空间 的 基本 层次 概念 化 
(Basic-level Conceptualization, BLC) 方法 。 
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第 4 章 为 “基于 概念 化 的 短文 本 理解 ”。 介 绍 一 种 基于 概念 化 的 查询 理解 方法 ， 把 短文 本 (如 搜索 引擎 中 的 查询 关键 字 ) 所 
包含 的 实体 映射 到 概念 空间 上 ， 从 而 支持 机 器 进行 进一步 的 计算 。 


第 ?5 章 为 “基于 概念 化 的 短文 本 主题 词 与 修饰 词 检测 ”。 基 于 概念 化 模型 ， 将 大 量 实体 级 别 的 “主题 词 -修饰 词 ”对 映射 为 精 
细 且 精确 的 市 权重 的 概念 模式 ， 进 而 进行 主题 词 与 修饰 词 的 检测 。 


第 6 章 为 “基于 概念 化 的 词 相似 度 计算 ”。 利 用 概念 化 模型 ， 将 词 映 射 为 一 种 语义 表示 ， 从 而 计算 任意 两 个 词 乙 间 的 语义 相 
似 度 值 。 


第 7 章 刀 “基于 概念 化 的 海量 竞价 天 键 字 匹配 ”。 展 示 了 本 书 所 介绍 的 模型 在 实际 系统 中 的 应 用 ， 把 短文 本 概念 化 成 一 组 相 
天 概念 ， 通 过 测量 它们 在 概率 空间 的 相似 度 ， 对 于 给 定 的 查询 选择 相关 的 竞价 关键 字 。 


第 8 草 为 “短文 本 理解 研究 展望 。r。 指 出 了 短文 本 理解 万 向 未 来 的 研究 工作 。 


本 书 读者 对 象 


:从事 文本 数据 处 理 、 上 自然 语言 处 理 等 研究 方向 的 高 校 教师 及 科研 机 构 研 究 人 员 。 
RAHM, REL ANS. ESR SS E, 
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第 1 章 ”短文 本 理解 及 其 应 用 


1.1 短文 本 理解 


短文 本 广泛 地 存在 于 互联 网 的 各 个 角落 ， 如 搜索 查询 、 广 告 关 键 字 、 销 文本 、 标 签 、 网 页 标题 、 在 线 问题 、 微 博 等 ， 都 属于 
短文 本 。 一 般 而 言 ， 短 文本 字数 少 ， 没 有 足够 的 信息 量 来 进行 统计 推断 ， 因 此 机 器 很 难 在 有 限 的 语 境 中 进行 准确 的 语义 理解 。 此 
外 ， 由 于 短文 本 常常 不 遵循 语法 ， 自 然 语言 处 理 拷 术 如 词性 标注 和 句法 解析 等 ， 难 以 直接 应 用 于 短文 本 分 析 。 正 是 由 于 这 些 特 
性 ,使 得 让 机 器 正确 理解 短文 本 十 分 困难 。 然 而 ， 短 文本 理解 又 是 一 项 对 于 机 器 最 终 实 现 人 工 智 能 至 关 重 要 的 任务 ， 其 在 知识 挖 
据 领 域 有 很 多 潜在 应 用 ， 如 网 页 搜索 、 在 线 广告 、 智 能 问答 和 等。 那么 ， 如 何 才能 够 破解 其 中 的 挑战 呢 ? 


我 们 不 妨 首 先 跳 出 机 器 的 沁 畴 ， 看 看 人 类 是 如 何 理 解 短 文本 的 。 对 于 人 类 而 言 ， 理 解 这 些 短文 本 是 十 分 简 蛙 的 。 即 使 是 一 个 


10 岁 左右 的 儿童 ， 当 他 们 看 到 短文 本 (如 搜索 查询 ) 时 ， 都 可 以 正确 地 理解 这 些 短文 本 的 含义 。 究 其 原因 ， 是 由 于 人 类 具 
有 “思维 ” ， 能 够 积累 知识 并 做 出 推 新 。 例 如 ， 给 出 两 个 查询 语句 “band for wedding" fl] "wedding band”， 人 类 可 以 清 
楚 地 判断 前 者 指 的 是 一 项 “婚礼 乐队 服务 ” ， 而 后 者 是 “结婚 戒指 ”。 而 这 种 知识 的 积累 ， 是 人 们 通过 不 断 学 习 而 获得 的 。 


为 了 使 机 器 也 具有 类 似 的 能 力 ， 先 前 的 研究 往往 也 会 构造 出 一 些 知 识 库 系统 ， 如 Freebase、Yago 等 为 机 器 “ 沪 备 ”知识 。 
这 些 知识 库 大 多 包含 大 量 实体 以 及 与 之 相关 的 事实 。 以 搜索 引 爷 或 问答 系统 为 例 ， 基 于 这 些 事实 ， 机 器 可 以 通过 查询 的 方式 获取 
输入 问题 的 答案 。 然 而 ， 如 图 1-1 所 示 ， 在 机 器 回答 问题 前 ， 首 先 需 要 解决 的 是 “理解 ”问题 ， 这 也 是 这 一 过 程 中 的 最 大 挑战 。 


图 1-1 基于 知识 的 问答 过 程 


通过 深入 研究 ， 我 们 发 现 理解 短文 本 所 需要 的 知识 与 回答 短文 本 所 需要 的 知识 并 不 相同 。 例 如 ， 针 对 短文 本 “世界 上 第 三 大 
瀑布 ”，10 多 的 儿童 可 以 正确 理解 其 含义 ， 但 是 却 不 一 定 能 够 正确 回答 这 个 问题 。 这 是 因为 ， 理 解 短文 本 更 需要 的 是 常识 性 知 
iH (注重 广度 ) ， 而 回答 短文 本 更 需要 的 是 专业 性 知识 (注重 深度 ) 。 因 此 ， 传 统 的 知识 库 系 统 并 不 能 很 好 地 解决 短文 本 理解 问 


日 
sell, 


为 了 克服 机 器 理解 短文 本 的 障碍 ， 先 前 基于 短文 本 的 应 用 单 通过 枚 举 和 关键 词 匹配 的 方式 避免 “理解 ”这 一 任务 。 以 目 动 问 
答 系统 为 例 ， 可 事先 构建 天 于 占 题 和 答案 匹配 的 列表 ， 这 样 在 线 查 询 时 只 需 对 人 询 表 中 的 条 目 进行 匹配 即 可 。 近 年 来 随 痢 目 然 语言 
处 理 技术 的 发 展 ， 主 流 的 搜索 引 掌 正 逐 新 从 基于 关键 词 的 搜索 疝 文 本 理解 过 渡 。 例 如 ， 给 出 “apple ipad” 这 个 短文 本 ， 机 器 需 
要 明日 “apple” 所 指 为 品牌 名 而 不 是 水 果 。 


为 了 实现 自动 化 的 短文 本 理解 ， 许 多 相关 工作 1B 汪 明 ， 这 一 过 程 相 当 依 赖 额外 的 知识 。 这 些 知识 可 以 帮助 机 器 充分 挖掘 
短文 本 中 词 与 词 之 间 的 联系 ， 如 语义 相关 性 。 例 如 ， 在 英文 查询 “premiere Lincoln” 中 ，“premiere” 是 一 个 重要 的 信息 ， 
表明 “Lincoln” 在 这 里 指 的 是 movie (电影 ) ; 同样 ， 在 “watch harry potter” 中 ， 正 因为 “watch” (观看 ) 的 出 
现 ，“harry potter” 的 含义 可 被 判定 为 movie (电影 ) 或 DVD， 而 不 是 book (图 书 ) 。 但 是 ， 这 些 天 于 词汇 的 知识 ( 例 
如 “watch” 的 对 象 通常 是 movie) 并 没有 在 短文 本 中 明确 表示 出 来 ， 因 而 需要 通过 额外 的 知识 源 获 取 。 图 1-2 展 示 了 所 有 短文 
本 理解 方法 在 知识 源 属 性 和 粒度 的 二 维 坐 标 轴 中 对 应 的 位 置 。 这 些 方法 将 在 下 一 蕊 逐一 过 论 。 
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Sle ”短文 本 理解 及 其 应 用 


1.1 短文 本 理解 


短文 本 广泛 地 存在 于 互联 网 的 各 个 角落 ， 如 搜索 查询 、 广 告 天 键 字 、 销 文本 、 标 签 、 网 页 标题 、 在 线 问题 、 微 博 等 ， 都 属于 
短文 本 。 一 般 而 言 ， 短 文本 字数 少 ， 没 有 足够 的 信息 量 来 进行 统计 推断 ， 因 此 机 器 很 难 在 有 限 的 语 境 中 进行 准确 的 语义 理解 。 此 
外 ， 由 于 短文 本 常常 不 遵循 语法 ， 自 然 语言 处 理 拷 术 如 词性 标注 和 句法 解析 等 ， 难 以 直接 应 用 于 短文 本 分 析 。 正 是 由 于 这 些 特 
性 ,使 得 让 机 器 正确 理解 短文 本 十 分 困难 。 然 而 ， 短 文本 理解 又 是 一 项 对 于 机 器 最 终 实 现 人 工 智 能 至 关 重 要 的 任务 ， 其 在 知识 挖 
据 领 域 有 很 多 潜在 应 用 ， 如 网 页 搜索 、 在 线 广告 、 智 能 问答 等 。 那 么 ， 如 何 才能 够 破解 其 中 的 挑战 呢 ? 


我 们 不 妨 首先 跳出 机 器 的 范畴 ， 看 看 人 类 是 如 何 理解 短文 本 的 。 对 于 人 类 而 言 ， 理 解 这 些 短 文本 是 十 分 简单 的 。 即 使 是 一 个 
10 岁 左右 的 儿童 ， 当 他 们 看 到 短文 本 (如 搜索 查询 ) 时 ， 都 可 以 正确 地 理解 这 些 短 文本 的 含义 。 究 其 原因 ， 是 由 于 人 类 具 
有 “思维 ” ， 能 够 积累 知识 并 做 出 推 新 。 例 如 ， 给 出 两 个 查询 语句 “band for wedding" fl] "wedding band”， 人 类 可 以 清 
楚 地 判断 前 者 指 的 是 一 项 “婚礼 乐队 服务 ” ， 而 后 者 是 “结婚 戒指 ”。 而 这 种 知识 的 积累 ， 是 人 们 通过 不 断 学 习 而 获得 的 。 


为 了 使 机 器 也 具有 类 似 的 能 力 ， 先 前 的 研究 往往 也 会 构造 出 一 些 知 识 库 系统 ， 如 Freebase、Yago 等 为 机 器 “装备 ”知识 。 
这 些 知识 库 大 多 包含 大 量 实 体 以 及 与 乙 相 关 的 事实 。 以 搜索 引擎 或 问答 系统 为 例 ， 基 于 这 些 事 实 ， 机 器 可 以 通过 查询 的 方式 获取 


输入 问题 的 答案 。 然 而 ， 如 图 1-1 所 示 ， 在 机 器 回答 问题 前 ， 首 先 需 要 解决 的 是 “理解 ”问题 ， 这 也 是 这 一 过 程 中 的 最 大 挑战 。 
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CJ Saez ) 
图 1-1 基于 知识 的 问答 过 程 


通过 深入 研究 ， 我 们 发 现 理解 短文 本 所 需要 的 知识 与 回答 短文 本 所 需要 的 知识 并 不 相同 。 例 如 ， 针 对 短文 本 “世界 上 第 三 大 
瀑布 ”，10 多 的 儿童 可 以 正确 理解 其 含义 ， 但 是 却 不 一 定 能 够 正确 回答 这 个 问题 。 这 是 因为 ， 理 解 短文 本 更 需要 的 是 常识 性 知 
iH (注重 广度 ) ， 而 回答 短文 本 更 需要 的 是 专业 性 知识 (注重 深度 ) 。 因 此 ， 传 统 的 知识 库 系 统 并 不 能 很 好 地 解决 短文 本 理解 问 


日 
ell, 


为 了 克服 机 器 理解 短文 本 的 障碍 ， 先 前 基于 短文 本 的 应 用 单 通过 枚 举 和 关键 词 匹配 的 方式 避免 “理解 ”这 一 任务 。 以 目 动 问 
答 系统 为 例 ， 可 事先 构建 天 于 占 题 和 答案 匹配 的 列表 ， 这 样 在 线 查 询 时 只 需 对 人 询 表 中 的 条 目 进行 匹配 即 可 。 近 年 来 随 痢 目 然 语言 
处 理 技术 的 发 展 ， 主 流 的 搜索 引 掌 正 逐 新 从 基于 关键 词 的 搜索 疝 文 本 理解 过 渡 。 例 如 ， 给 出 “apple ipad” 这 个 短文 本 ， 机 器 需 
要 明日 “apple” 所 指 为 品牌 名 而 不 是 水 果 。 


为 了 实现 自动 化 的 短文 本 理解 ， 许 多 相关 工作 [3 证明， 这 一 过 程 相当 依赖 额外 的 知识 。 这 些 知识 可 以 帮助 机 器 充分 挖掘 
短文 本 中 词 与 词 之 间 的 联系 ， 如 语义 相关 性 。 例 如 ， 在 英文 查询 “premiere Lincoln” 中 ，“premiere” 是 一 个 重要 的 信息 ， 
表明 “Lincoln” 在 这 里 指 的 是 movie (电影 ) ; 同样 ， 在 “watch harry potter” 中 ， 正 因为 “watch” (观看 ) 的 出 
IW, "harry potter” 的 含义 可 被 判定 为 movie (电影 ) 或 DVD， 而 不 是 book (HË) 。 但 是 ， 这 些 天 于 词汇 的 知识 ( 例 
如 “watch” 的 对 象 通常 是 movie) 并 没有 在 短文 本 中 明确 表示 出 来 ， 因 而 需要 通过 额外 的 知识 源 获 取 。 图 1-2 展 示 了 所 有 短文 
本 理解 方法 在 知识 源 属性 和 粒度 的 二 维 坐 标 轴 中 对 应 的 位 置 。 这 些 方法 将 在 下 一 蕊 逐一 过 论 。 
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图 1-2 不同 模型 的 属性 和 粒度 
[1] Deerwester S, Dumais S T, Furnas G W, et al.Indexing by Latent Semantic Analysis [J] .Journal of The American Society for 
Information Science, 1990, 41 (6) : 391 
[2] Song Y, Wang H, Wang Z, et al.Short Text Conceptualization Using A Probabilistic Knowledgebase [C] .International Joint 
Conference on Artificial Intelligence, 2011: 2330-2336. 
[3] Wang Z, Zhao K, Wang H, et al.Query Understanding through Knowledge-based Conceptualization [C] .Proceedings of the 24th 


International Conference on Artificial Intelligence, 2015: 3264-3270. 


1.2. 短文 本 理解 研究 现状 


1.2.1 短文 本 理解 模型 概述 


本 节 根 据 短 文本 理解 所 需 知 识 源 的 属性 ， 将 短文 本 理解 模型 分 为 三 类 : 隐 性 (implicit) 语义 模型 、 半 显 性 (semi- 
explicit) 语义 模型 和 显 性 (explicit) 语义 模型 。 其 中 ， 隐 性 和 半 显 性 模型 试图 从 大 量 文本 数据 中 挖 所 出 词 与 词 之 间 的 联系 ， 从 
而 应 用 于 短文 本 理解 。 相 比 之 下 ， 显 性 模型 使 用 人 工 构 建 的 大 规模 知识 库 和 词典 辅助 短文 本 理解 。 


1. 隐 性 语义 模型 


隐 性 语义 模型 产生 的 短文 本 表示 通常 为 映射 在 一 个 语义 空间 上 的 隐 性 向 量 。 这 个 向 量 的 每 个 维度 所 代表 的 合 义 人 们 无 法 解 


释 ， 只 能 用 于 机 器 计算 。 以 下 将 介绍 几 种 代表 性 的 隐 性 语义 模型 。 


隐 性 语义 分 析 (Latent Semantic Analysis, LSA) 模型 : 最 早 的 基于 隐 性 语义 的 文本 理解 框架 为 LSA 模 型 !]， 也 被 称 为 
Latent Semantic Indexing (LSI) 模型 。LSA 模 型 中 在 用 统计 方法 分 析 大 量 文本 从 而 推出 词 与 文本 的 侣 义 表 示 ， 其 思想 核心 是 
在 相同 语 境 下 出 现 的 词 具 有 较 遍 的 语义 相关 性 。 具 体 而 言 ，LSA 模 型 构建 一 个 庞大 的 词 与 文本 的 共 现 矩 孟 。 对 于 每 个 词 同 量 ， 马 
的 每 个 维度 都 代表 一 个 文本 ; 对 于 每 个 文本 同 量 ， 其 每 个 维度 代表 一 个 词 。 通 剃 ， 和 窍 阵 每 项 的 输入 是 经 过 平滑 或 转换 的 共 现 次 
效 。 单 用 的 转换 万 法 为 TF-I1DF。 最 终 ，LSA 模 型 通过 奇异 值 分 解 (SVD) 的 万 法 将 原始 拒 阵 降 维 。 在 短文 本 的 情境 下 ，LSA 模 型 
有 两 种 使 用 万 式 。 首 务 ， 在 语 料 足 够 多 的 离线 任务 上 ，LSA 模 型 可 以 直接 构建 一 个 词 与 短文 本 的 共 现 矩 阵 ， 从 而 推出 每 个 短文 本 
的 表示 。 其 次 ， 在 训练 数据 量 较 小 的 情境 下 ， 或 针对 线 上 任务 (针对 测试 数据 ) ， 可 以 事先 通过 标准 的 LSA 模 型 万 法 得 到 每 个 词 
同 量 ,， 然 后 使 用 额外 的 语义 合成 方式 获取 短文 本 向 量 。 


超 空 间 模拟 语言 (Hyperspace Analogue to Language, HAL) 模型 : 一 个 与 LSA 模 型 类 似 的 模型 是 HAL 模 型 二 。HAL 模 
型 与 LSA 模 型 的 主要 区 别 在 于 前 者 是 更 加 纯粹 的 词 模型 。HAL 模 型 旨 在 构建 一 个 词 与 词 的 共 现 矩阵 。 对 于 每 个 词 向 量 ， 它 的 每 个 
维度 代表 一 个 语 境 词 。 该 模型 统计 目标 词汇 与 语 境 词汇 的 共 现 次 数 ， 并 经 过 相应 的 平滑 或 转换 (如 TF-IDF、Pointwise Mutual 
Information (PMI) 等 ) 得 到 矩阵 中 每 个 输入 的 值 。 通 常 ， 语 境 词 的 选取 有 较 大 的 灵活 性 。 例 如 ， 语 境 词 可 被 选 为 整个 词汇 ， 
或 者 除 停止 词 外 的 高 频 词 申 。 类 比 LSA 模 型 ， 在 HAL 模 型 中 可 以 根据 原始 向 量 的 维度 和 任务 要 求 选择 是 否 对 原始 向 量 进行 降 维 。 
由 于 HAL 模 型 的 产 出 仅仅 为 词 向 量 ， 在 短文 本 理解 这 一 任务 中 需 采 用 额外 的 合成 方式 (如 向 量 相 加 ) 来 推出 短文 本 向 量 。 

独 经 语言 模型 (Neural Language Model, NLM) : 近年 来 ， 随 着 神经 网 络 和 特征 学 习 的 发 展 ， 传 统 的 HAL 模 型 逐渐 被 
NLMMIDICI 取代 。 与 HAL 模 型 通过 明确 共 现 统计 构建 词 向 量 的 思想 不 同 ，NLM 虽 在 将 词 向 量 当成 待 学 习 的 模型 参数 ， 并 通过 
神经 网 络 在 大 规模 非 结构 化 文本 的 训练 来 更 新 这 些 参数 以 得 到 最 优 的 词语 义 编码 ( 常 被 称 作 Word Embedding) 。 


最 早 的 概率 性 NLM 由 Bengio 等 提出 出 。 其 模型 使 用 前 向 神经 网 络 (Feedforward Neural Network) 根据 语 境 预 测 下 一 个 
词 出 现 的 概率 。 通 过 对 训练 文本 中 每 个 词 的 极 大 似 然 估计 ， 模 型 参数 (包括 词 向 量 和 神经 网 络 参数 ) 可 使 用 误差 反 向 传播 
(BP) 算法 进行 更 新 。 此 模型 的 缺点 在 于 仅仅 使 用 了 有 限 的 语 境 。 后 来 ，Mikolov 等 中 提出 使 用 递归 神经 网 络 (Recurrent 
Neural Network) 来 代替 前 向 神经 网 络 ， 从 而 模拟 较 长 的 语 境 。 此 外 ， 原 始 NLM 的 计算 复杂 度 很 高 ， 这 主要 是 由 于 网 络 中 大 量 
参数 和 非 线性 转换 所 致 。 针 对 这 一 问题 ，Mikolov 等 10 提出 两 种 简化 (去掉 神经 网 络 权重 和 非 线性 转换 ) 的 NLM BD 
Continuous Bag of Words (CBOW) 和 skip-gram。 前 者 通过 窗口 语 境 预测 目标 词 出 现 的 概率 ， 而 后 者 使 用 目标 词 预测 窗口 
中 的 每 个 语 境 词 出 现 的 概率 。 


另 一 类 非 概率 性 的 神经 网 络 以 Collobert 和 Weston 的 工作 [1 为 代表 。 其 模型 Senna 考 虑 文本 中 的 n 元 组 。 对 每 个 n 元 组 中 某 
个 位 置 的 词 (如 中 间 词 ) ， 模 型 选取 随机 词 来 代 蔡 该 词 ， 从 而 产生 若干 新 的 n 元 组 作为 负 样 本 。 在 训练 中 ， 一 个 简单 的 神经 网 络 
为 n 元 组 打分 ， 训 练 目 标 为 正 样本 得 分 s+ 与 负 样 本 得 分 s- 间 的 最 大 间隔 排序 损失 (max-margin ranking loss) : 


2,max(0.1— s^-4- s^) 


n-gram 


忌 而 言 之 ，NLM 同 HAL 模 型 相似 ， 所 得 到 的 词 向 量 并 不 能 直接 用 于 短文 本 理解 ， 而 需要 额外 的 合成 模型 依据 词 向 量 得 到 短 
文本 同 量 。 


段 向 量 (Paragraph Vector, PV) : PVI12] 是 另 一 种 基于 神经 网 络 的 隐 性 短文 本 理解 模型 。PV 可 被 视 作 CBOW 和 Skip- 


gram 的 延伸 ， 可 和 直接 应 用 于 短文 本 向 量 的 学 习 。PV 的 核心 思想 是 将 短文 本 向 量 当 作 “ 语 境 ”， 用 于 辅助 推理 〈 例 如， 根据 当前 
词 预 测 语 境 词 ) 。 在 极 大 似 然 的 估计 过 程 中 ， 文 本 向 量 亦 被 作为 模型 参数 更 新 。PV 的 产 出 是 词 向 量 和 文本 向 量 ,， 对 于 (ALE 
SPAY) 测试 短文 本 ，PV 需 要 使 用 额外 的 推理 获取 其 向 量 。 图 1-3 比 较 了 CBOW、Skip-gram 和 两 种 PV 的 异同 。 


fish the cat cat 
the cat eats fish 
a) CBOW b) Skip-gram 
fish the cat eats fish 
Text id the cat eats Text 1d 
c) PV-1 d) PV-2 


图 1-3” CBOW、Skip-gram 和 两 种 PV 


2. 半 显 性 语义 模型 


半 显 性 语义 模型 产生 的 短文 本 表示 方法 也 是 一 种 映射 在 语义 空间 里 的 向 量 。 与 隐 性 语义 模型 不 同 的 是 ， 半 显 性 语义 模型 的 向 
量 的 每 一 个 维度 是 一 个 “主题 ” (topic) ， 这 个 主题 通常 是 一 组 词 的 聚 类 。 人 们 可 以 通过 这 个 主题 猪 测 这 个 维度 所 代表 的 合 


义 。 但 是 这 个 维度 的 语义 仍然 不 是 明确 、 可 解释 的 。 半 显 性 语义 模型 的 代表 性 工作 是 主题 模型 (topic model) 。 


主题 模型 : 最 时 的 主题 模型 为 LSA 模 型 的 延伸 。LSA 模 型 尝试 通过 线性 代数 (奇异 值 分 解 ) 的 处 理 方 式 友 现 文 本 中 的 隐藏 语 
义 结构 ， 从 而 得 到 词 和 文本 的 特征 表示 ; 而 主题 模型 则 党 试 从 概率 生成 模型 (Generative Model) 的 角度 分 析 文 本 语义 结构 ， 
模拟 主题 这 一 隐藏 参数 ， 从 而 解释 词 与 文本 的 共 现 关系 。 


最 早 的 主题 模型 Probabilistic LSA (PLSA) 模型 由 Hofmann 等 提出 中。，PLSA 模 型 假设 文本 具有 主题 分 布 ， 而 文本 中 的 词 
从 主题 对 应 的 词 分 布 中 抽取 。 以 d 表 示 文 本 ，W 表 示 词 ，z 表 示 主 题 (隐藏 参数 ) ，Z 表 示 主 题 集合 ， 则 文本 和 词 的 联系 概率 
p (d, w) 的 生成 过 程 可 被 表示 如 下 : 


p(d.w)=pld) > pw |z)plz | d) 


z€Z 


虽然 PLSA 模 型 可 以 模拟 每 个 文本 的 主题 分 布 ， 然 而 其 没有 假设 主题 的 先 验 分 布 (每 个 训练 文本 的 主题 分 布 相 对 独立 ) , '€ 


的 参数 随 训练 文本 的 个 数 呈 线性 增长 ， 且 无 法 应 用 于 测试 文本 。 


一 个 更 加 完善 的 主题 模型 为 LDA 模 型 (Latent Dirichlet Allocation Model) [和 。LDA 模 型 从 贝 叶 斯 的 角度 为 两 个 多 项 式 
分 布 添加 了 狄 利克 雷 先 验 分 布 ， 从 而 解决 了 PLSA 模 型 中 存在 的 问题 。 在 LDA 模 型 中 ， 每 个 文本 的 主题 分 布 为 多 项 式 分 布 
Mult (8) ， 其 中 6 从 狄 利克 雷 先 验 Dir (a) 中 抽取 。 同 理 ， 对 于 主题 的 词 分 布 Mult (o) ， 其 参数 p 从 狄 利克 雷 先 验 Dir (B) 
获取 。 图 1-4 对 比 了 PLSA 模 型 和 LDA 模型 的 盘子 表示 法 (Plate notation) 。 
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b) LDA 


图 1-4 PLSA 模 型 和 LDA 模 型 的 盘子 表示 法 比较 


忌 之 ， 通 过 采用 主题 模型 对 短文 本 进行 训练 ， 最 终 可 以 获取 每 个 短文 本 的 主题 分 布 ， 以 作为 其 表示 方式 。 这 种 万 法 将 短文 本 
转 为 了 机 器 可 计算 的 向 量 。 


3. 显 性 语义 模型 


近年 来 ， 随 着 大 规模 知识 库 系统 的 出 现 (如 Wikipedia、Freebase、Probase 等 ) ， 越 来 越 多 的 研究 关注 于 如 何 将 短文 本 转 
化 成 人 和 机 器 都 可 以 理解 的 表示 方法 。 这 类 模型 称 为 显 性 语义 模型 。 与 前 两 类 模型 相 比 ， 显 性 语义 模型 最 大 的 特点 束 是 它 所 产生 
的 短文 本 向 量 表示 不 仪 是 机 器 可 用 于 计算 的 ， 也 是 人 类 可 以 理解 的 ， 每 一 个 维度 都 有 明确 的 含义 ， 通 党 是 一 个 明确 的 “ 概 
念 ” (concept) 。 这 意味 着 机 器 将 短文 本 转 为 显 性 语义 向 量 后 ， 人 们 很 容易 束 可 以 判断 这 个 向 量 的 质量 ， 并 友 现 其 中 的 问题 ， 
从 而 万 便 进一步 的 模型 调整 与 优化 。 


显 性 语义 分 析 (Explicit Semantic Analysis, ESA) 模型 : 在 基于 隐 性 语义 的 模型 中 ， (RE) 向 量 的 每 个 维度 并 没有 明确 
的 含义 标注 。 与 之 相对 的 是 显 性 语义 模型 ， 向 量 空间 的 构建 由 知识 库 辅助 完成 。 最 具 代表 性 的 显 性 语义 模型 为 ESA 模 型 [1 >。 
ESA 模 型 同 LSA 模 型 的 构建 思路 一 致 ， 旨 在 构建 一 个 庞大 的 词 与 文本 的 共 现 矩阵 。 在 这 个 矩阵 中 ， 每 个 输入 为 词 与 文本 的 TF- 
IDF。 然 而 ， 在 ESA 模 型 中 词 向 量 的 每 个 维度 代表 一 个 明确 的 知识 库 文本 ， 如 Wikipedia 文 章 (或 标题 ) 。 此 外 ， 原 始 的 ESA 模 型 
没有 对 共 现 矩阵 进行 降 维 处 理 ， 因 而 产生 的 词 向 量具 有 较 高 维度 。 在 短文 本 理解 这 一 任务 中 ， 需 使 用 额外 的 语义 合成 方法 推导 出 
短文 本 向 量 。 图 1-5 比 较 了 LSA 模 型 、HAL 模 型 、ESA 模 型 和 LDA 模 型 的 区 别 与 联系 。 


概念 化 (Conceptualization) : 另 一 类 基于 显 性 语义 的 短文 本 理解 方法 为 概念 化 5 el ANN, 概念 化 则 在 借助 知识 库 推 
出 短文 本 中 每 个 词 的 概念 分 布 ， 即 将 词 按 语 境 映 射 到 一 个 以 概念 为 维度 的 向 量 上 。 在 这 一 任务 中 ， 每 个 词 的 候选 概念 可 从 知识 库 
中 明确 获取 。 例 如 ， 通 过 知识 库 Probasel*0]， 机 器 可 获悉 apple 这 个 词 有 fruit 和 company 这 两 个 概念 。 当 apple 出 现在 “apple 
ipad” 这 个 短文 本 中 ， 通 过 概念 化 可 分 析 得 出 apple 有 较 高 的 概率 属于 company 这 个 概念 。 
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图 1-5 LSA 模 型 、HAL 模 型 、ESA 模 型 和 LDA 模 型 比较 
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最 早 的 概念 化 方法 由 Song 等 提出 *1。 其 模型 使 用 知识 库 Probase， 获 取 短 文本 中 每 个 词 与 概念 间 的 条 件 概率 p (concept 
| word) 和 p (word | concept) ， 从 而 通过 朴素 贝 叶 斯 方法 推出 每 个 短文 本 的 概念 分 布 。 这 一 单纯 基于 概率 的 模型 无 法 处 理 
由 语义 相关 但 概念 不 同 的 词组 成 的 短文 本 (如 “apple ipad" ) 。 为 解决 无 法 识别 语 境 的 问题 ，Kim 等 对 Song 的 模型 做 出 了 
改进 。 新 的 模型 使 用 LDA 主 题 模型 ， 分 析 整 条 短文 本 的 主题 分 布 ， 进 而 计算 p (concept | word, topic) . 


另 一 个 基于 Probase 的 短文 本 理解 框架 为 Hua 等 提出 的 Lexical Semantic Analysis (LexSA) [<“3]。LexSA 将 短文 本 理解 系统 
化 为 分 词 、 词 性 标注 和 概念 识别 三 个 步骤 ， 并 在 每 个 步 又 使 用 新 的 模型 消除 歧义 。 在 分 词 和 词性 标注 环 书 ， 作 者 分 别 使 用 图 模型 
推出 短文 本 的 最 优 分 词 方 式 和 词 的 词性 ; 在 概念 识别 环节 ， 每 个 词 被 表示 成 以 概念 为 维度 的 向 量 。 为 了 进一步 强调 LexSA 中 各 环 
节 的 相互 作用 关系 ， esl AC A, 并 使 用 随机 游 走 (Random Walk) 的 方法 推出 最 优 的 

分 司 、 词 性 和 词 的 概念 。 
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1.2 短文 本 理解 研究 现状 


1.2.1 短文 本 理解 模型 概述 


本 忆 根 据 短文 本 理解 所 需 知 识 源 的 属性 ， 将 短文 本 理解 模型 分 为 三 类 : 隐 性 (implicit) 语义 模型 、 半 显 性 (semi- 
explicit) 语义 模型 和 显 性 (explicit) 语义 模型 。 其 中 ， 隐 性 和 半 显 性 模型 试图 从 大 量 文本 数据 中 挖 所 出 词 与 词 之 间 的 联系 ， 从 
而 应 用 于 短文 本 理解 。 相 比 之 下 ， 显 性 模型 使 用 人 工 构 建 的 大 规模 知识 库 和 词典 辅助 短文 本 理解 。 


1. 隐 性 语义 模型 


隐 性 语义 模型 产生 的 短文 本 表示 通常 为 映射 在 一 个 语义 空间 上 的 隐 性 向 量 。 这 个 向 量 的 每 个 维度 所 代表 的 合 义 人 们 无 法 解 
释 ， 只 能 用 于 机 器 计算 。 以 下 将 介绍 几 种 代表 性 的 隐 性 语义 模型 。 


隐 性 语义 分 析 (Latent Semantic Analysis, LSA) 模型 : 最 早 的 基于 隐 性 语义 的 文本 理解 框架 为 LSA 模 型 [ 川 ， 也 被 称 为 
Latent Semantic Indexing (LSI) 模型 。LSA 模 型 中 在 用 统计 方法 分 析 大 量 文本 从 而 推出 词 与 文本 的 侣 义 表 示 ， 其 思想 核心 是 
在 相同 语 境 下 出 现 的 词 具 有 较 遍 的 语义 相关 性 。 具 体 而 言 ，LSA 模 型 构建 一 个 庞大 的 词 与 文本 的 共 现 矩 孟 。 对 于 每 个 词 癌 量 ， 马 
的 每 个 维度 都 代表 一 个 文本 ; 对 于 每 个 文本 同 量 ， 其 每 个 维度 代表 一 个 词 。 通 弟 ， 和 窍 阵 每 项 的 输入 是 经 过 平滑 或 转换 的 共 现 次 
效 。 单 用 的 转换 万 法 为 TF-I1DF。 最 终 ，LSA 模 型 通过 奇异 值 分 解 (SVD) 的 万 法 将 原始 炬 阵 降 维 。 在 短文 本 的 情境 下 ，LSA 模 型 
有 两 种 使 用 方式 。 首 先 ， 在 语 料 足 够 多 的 离线 任务 上 ，LSA 模 型 可 以 直接 构建 一 个 词 与 短文 本 的 共 现 算 阵 ， 从 而 推出 每 个 短文 本 
的 表示 。 其 次 ， 在 训练 数据 量 较 小 的 情境 下 ， 或 针对 线 上 任务 (针对 测试 数据 ) ， 可 以 事先 通过 标准 的 LSA 模 型 万 法 得 到 每 个 词 
同 量 ， 然 后 使 用 额外 的 语义 合成 方式 获取 短文 本 向 量 。 


超 空 间 模拟 语言 (Hyperspace Analogue to Language, HAL) 模型 : 一 个 与 LSA 模 型 类 似 的 模型 是 HAL 模 型 由 。HAL 模 
型 与 LSA 模 型 的 主要 区 别 在 于 前 者 是 更 加 纯粹 的 词 模型 。HAL 模 型 下 在 构建 一 个 词 与 词 的 共 现 矩 孟 。 对 于 每 个 词 向 量 ， 它 的 每 个 
维度 代表 一 个 语 境 词 。 该 模型 统计 目标 词汇 与 语 境 词汇 的 共 现 次 数 ， 并 经 过 相应 的 平滑 或 转换 (如 TF-IDF、Pointwise Mutual 


Information (PMI) 等 ) 得 到 矩阵 中 每 个 输入 的 值 。 通 常 ， 语 境 词 的 选取 有 较 大 的 灵活 性 。 例 如 ， 语 境 词 可 被 选 为 整个 词汇 ， 
或 者 除 停止 词 外 的 高 频 词 中 。 类 比 LSA 模 型 ， 在 HAL 模 型 中 可 以 根据 原始 向 量 的 维度 和 任务 要 求 选择 是 否 对 原始 向 量 进行 降 维 。 
由 于 HAL 模 型 的 产 出 仅仅 为 词 向 量 ， 在 短文 本 理解 这 一 任务 中 需 采 用 额外 的 合成 方式 (如 向 量 相 加 ) 来 推出 短文 本 向 量 。 

神经 语言 模型 (Neural Language Model, NLM) : 近年 来 ， 随 着 神经 网 络 和 特征 学 习 的 发 展 ， 传 统 的 HAL 模 型 逐渐 被 
NLM 呈 Pi 取代。 与 HAL 模 型 通过 明确 共 现 统计 构建 词 向 量 的 思想 不 同 ，NLM 旨 在 将 词 向 量 当成 待 学 习 的 模型 参数 ， 并 通过 
神经 网 络 在 大 规模 非 结构 化 文本 的 训练 来 更 新 这 些 参数 以 得 到 最 优 的 词语 义 编码 ( 常 被 称 作 Word Embedding) 。 


最 早 的 概率 性 NLM 由 Bengio 等 提出 出 。 其 模型 使 用 前 向 神经 网 络 (Feedforward Neural Network) 根据 语 境 预 测 下 一 个 
词 出 现 的 概率 。 通 过 对 训练 文本 中 每 个 词 的 极 大 似 然 估计 ， 模 型 参数 (包括 词 向 量 和 神经 网 络 参 数 ) 可 使 用 误差 反 向 传播 
(BP) 算法 进行 更 新 。 此 模型 的 缺点 在 于 仅仅 使 用 了 有 限 的 语 境 。 后 来 ，Mikolov 等 中 提出 使 用 递归 神经 网 络 (Recurrent 
Neural Network) 来 代 蔡 前 向 神经 网 络 ， 从 而 模拟 较 长 的 语 境 。 此 外 ， 原 始 NLM 的 计算 复杂 度 很 高 ， 这 主要 是 由 于 网 络 中 大 量 
参数 和 非 线性 转换 所 致 。 针 对 这 一 问题 ，Mikolov 等 110 提 出 两 种 简化 (去掉 神经 网 络 权重 和 非 线性 转换 ) 的 NLM BD 
Continuous Bag of Words (CBOW) 和 skip-gram。 前 者 通过 窗口 语 境 预测 目标 词 出 现 的 概率 ， 而 后 者 使 用 目标 词 预测 窗口 
中 的 每 个 语 境 词 出 现 的 概率 。 


另 一 类 非 概率 性 的 神经 网 络 以 Collobert 和 Weston 的 工作 中 1) 为 代表 。 其 模型 Senna 考 虑 文本 中 的 n 元 组 。 对 每 个 n 元 组 中 某 
个 位 置 的 词 (如 中 间 词 ) ， 模 型 选取 随机 词 来 代 蔡 该 词 ， 从 而 产生 若干 新 的 n 元 组 作为 负 样 本 。 在 训练 中 ， 一 个 简单 的 神经 网 络 
为 n 元 组 打分 ， 训 练 目 标 为 正 样本 得 分 s+ 与 负 样 本 得 分 s- 间 的 最 大 间隔 排序 损失 (max-margin ranking loss) : 


> max(0,.1—s —s ) 


n- gram 


忌 而 言 之 ，NLM 同 HAL 模 型 相似 ， 所 得 到 的 词 向 量 并 不 能 直接 用 于 短文 本 理解 ， 而 需要 额外 的 合成 模型 依据 词 向 量 得 到 短 
文本 同 量 。 


段 向 量 (Paragraph Vector, PV) : PVU 4 是 另 一 种 基于 神经 网 络 的 隐 性 短文 本 理解 模型 。PV 可 被 视 作 CBOW 和 Skip- 
gram 的 延伸 ， 可 直接 应 用 于 短文 本 向 量 的 学 习 。PV 的 核心 思想 是 将 短文 本 向 量 当 作 “ 语 境 ”， 用 于 辅助 推理 (例如 ， 根 据 当 前 
词 预测 语 境 词 ) 。 在 极 大 似 然 的 估计 过 程 中 ， 文 本 向 量 亦 被 作为 模型 参数 更 新 。PV 的 产 出 是 词 向 量 和 文本 向 量 ， 对 于 (ALE 
务 中 的 ) 测试 短文 本 ，PV 需 要 使 用 额外 的 推理 获取 其 向 量 。 图 1-3 比 较 了 CBOW、Skip-gram 和 两 种 PV 的 异同 。 


fish the cat cat 


the cat eats fish 
a) CBOW b) Skip-gram 
fish the cat eats fish 
Text id the cat eats Text id 
c) PV-] d) PV-2 


图 1-3 CBOWA Skip-gram 4e m P PV 


2. 半 显 性 语义 模型 


半 显 性 语义 模型 产生 的 短文 本 表示 方法 也 是 一 种 映射 在 语义 空间 里 的 同 量 。 与 隐 性 语义 模型 不 同 的 是 ， 半 显 性 语义 模型 的 加 
量 的 每 一 个 维度 是 一 个 “主题 ” (topic) ， 这 个 主题 通 剃 是 一 组 词 的 聚 类 。 人 们 可 以 通过 这 个 主题 猜测 这 个 维度 所 代表 的 合 


义 。 但 是 这 个 维度 的 语义 仍然 不 是 明确 、 可 解释 的 。 半 显 性 语义 模型 的 代表 性 工作 是 主题 模型 (topic model) 。 


主题 模型 : 最 时 的 主题 模型 为 LSA 模 型 的 延伸 。LSA 模 型 党 试 通过 线性 代数 (奇异 值 分 解 ) 的 处 理 方式 友 现 文本 中 的 隐藏 语 
义 结构 ， 从 而 得 到 词 和 文本 的 特征 表示 ; 而 主题 模型 则 党 试 从 概率 生成 模型 (Generative Model) 的 角度 分 析 文 本 语义 结构 ， 
模拟 主题 这 一 隐藏 参数 ， 从 而 解释 词 与 文本 的 共 现 关系 。 


最 早 的 主题 模型 Probabilistic LSA (PLSA) 模型 由 Hofmann 等 提出 中 站，PLSA 模 型 假设 文本 具有 主题 分 布 ， 而 文本 中 的 词 
从 主题 对 应 的 词 分 布 中 抽取 。 以 d 表 示 文 本 ，W 表 示 词 ，z 表 示 主 题 (隐藏 参数 ) ，Z 表 示 主 题 集合 ， 则 文本 和 词 的 联系 概率 
p (d, w) 的 生成 过 程 可 被 表示 如 下 : 


p(d.w)=p(d) >) p(w | z)plz |d) 


zez 


虽然 PLSA 模 型 可 以 模拟 每 个 文本 的 主题 分 布 ， 然 而 其 没有 假设 主题 的 先 验 分 布 (每 个 训练 文本 的 主题 分 布 相对 独立 ) , '€ 
的 参数 随 训练 文本 的 个 数 呈 线性 增长 ， 且 无 法 应 用 于 测试 文本 。 


一 个 更 加 完善 的 主题 模型 为 LDA 模 型 (Latent Dirichlet Allocation Model) [4 和，。LDA 模 型 从 贝 叶 斯 的 角度 为 两 个 多 项 式 


分 布 添加 了 狄 利克 雷 先 验 分 布 ， 从 而 解决 了 PLSA 模 型 中 存在 的 问题 。 在 LDA 模 型 中 ， 每 个 文本 的 主题 分 布 为 多 项 式 分 布 
Mult (9) ， 其 中 6 从 狄 利 克 雷 先 验 Dir (a) 中 抽取 。 同 理 ， 对 于 主题 的 词 分 布 Mult (中 ) ， 其 参数 pq 从 狄 利克 雷 先 验 Dir (B) 
获取 。 图 1-4 对 比 了 PLSA 模 型 和 LDA 模 型 的 盘子 表示 法 (Plate notation) 。 


主题 分 配 主题 


© 


文档 -主题 分 布 Xx ia] 
a) PLSA 


SXF se BSS 主题 分 配 + eh 


文档 -主题 分 布 观察 词 文档 -主题 分 布 


b) LDA 


图 1-4 ”PLSA 模 型 和 LDA 模 型 的 盘子 表示 法 比较 


忌 之 ， 通 过 采用 主题 模型 对 短文 本 进行 训练 ， 最 终 可 以 获取 每 个 短文 本 的 主题 分 布 ， 以 作为 其 表示 方式 。 这 种 万 法 将 短文 本 
转 为 了 机 器 可 计算 的 向 量 。 


3. 显 性 语义 模型 


近年 来 ， 随 着 大 规模 知识 库 系 统 的 出 现 (如 Wikipedia、Freebase、Probase 等 ) ， 越 来 越 多 的 研究 关注 于 如 何 将 短文 本 转 
化 成 人 和 机 器 都 可 以 理解 的 表示 方法 。 这 类 模型 称 为 显 性 语义 模型 。 与 前 两 类 模型 相 比 ， 显 性 语义 模型 最 大 的 特点 就 是 它 所 产生 


的 短文 本 回 量 表示 不 仅 是 机 器 可 用 于 计算 的 ， 也 是 人 类 可 以 理解 的 ， 每 一 个 维度 都 有 明确 的 舍 义 ， 通 单 是 一 个 明确 的 “ 概 


念 ” (concept) 。 这 意味 着 机 器 将 短文 本 转 为 显 性 语义 回 量 后 ， 人 们 很 容易 残 可 以 判断 这 个 同 量 的 质量 ， 并 友 现 其 中 的 问题 ， 
从 而 万 便 进一步 的 模型 调整 与 优化 。 


显 性 语义 分 析 (Explicit Semantic Analysis, ESA) 模型 : 在 基于 隐 性 语义 的 模型 中 ， (RE) 向 量 的 每 个 维度 并 没有 明确 
的 含义 标注 。 与 之 相对 的 是 显 性 语义 模型 ， 向 量 空间 的 构建 由 知识 库 辅助 完成 。 最 具 代表 性 的 显 性 语义 模型 为 ESA 模 型 0 >。 
ESA 模 型 同 LSA 模 型 的 构建 思路 一 致 ， 旨 在 构建 一 个 庞大 的 词 与 文本 的 共 现 矩阵 。 在 这 个 矩阵 中 ， 每 个 输入 为 词 与 文本 的 TF- 
IDF。 然 而 ， 在 ESA 模 型 中 词 向 量 的 每 个 维度 代表 一 个 明确 的 知识 库 文本 ， 如 Wikipedia 文 章 (或 标题 ) 。 此 外 ， 原 始 的 ESA 模 型 
没有 对 共 现 矩阵 进行 降 维 处 理 ， 因 而 产生 的 词 向 量具 有 较 高 维度 。 在 短文 本 理解 这 一 任务 中 ， 需 使 用 额外 的 语义 合成 方法 推导 出 
短文 本 向 量 。 图 1-5 比 较 了 LSA 模 型 、HAL 模 型 、ESA 模 型 和 LDA 模 型 的 区 别 与 联系 。 


概念 化 (Conceptualization) : 另 一 类 基于 显 性 语义 的 短文 本 理解 方法 为 概念 化 5 el i811 引 概念 化 则 在 借助 知识 库 推 
出 短文 本 中 每 个 词 的 概念 分 布 ， 即 将 词 按 语 境 映 射 到 一 个 以 概念 为 维度 的 向 量 上 。 在 这 一 任务 中 ， 每 个 词 的 候选 概念 可 从 知识 库 
中 明确 获取 。 例 如 ， 通 过 知识 库 Probasel<0j， 机 器 可 获悉 apple 这 个 词 有 fruit 和 company 这 两 个 概念 。 当 apple 出 现在 “apple 
ipad” 这 个 短文 本 中 ， 通 过 概念 化 可 分 析 得 出 apple 有 较 高 的 概率 属于 company 这 个 概念 。 
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最 早 的 概念 化 方法 由 Song 等 提出 忆 ]。 其 模型 使 用 知识 库 Probase， 获 取 短 文本 中 每 个 词 与 概念 间 的 条 件 概率 p (concept 
| word) 和 p (word | concept) ， 从 而 通过 朴素 贝 叶 斯 方法 推出 每 个 短文 本 的 概念 分 布 。 这 一 单纯 基于 概率 的 模型 无 法 处 理 


由 语义 相关 但 概念 不 同 的 词组 成 的 短文 本 (hU "apple ipad" ) 。 为 解决 无 法 识别 语 境 的 问题 ，Kim 等 <<j 对 Song 的 模型 做 出 了 
改进 。 新 的 模型 使 用 LDA 主 题 模 型 ， 分 析 整 条 短文 本 的 主题 分 布 ， 进 而 计算 p (concept | word，topic) 。 


另 一 个 基于 Probase 的 短文 本 理解 框架 为 Hua 等 提出 的 Lexical Semantic Analysis (LexSA) [3 引 。LexSA 将 短文 本 理解 系统 
化 为 分 词 、 词 性 标注 和 概念 识别 三 个 步骤 ， 并 在 每 个 步骤 使 用 新 的 模型 消除 收 义 。 在 分 词 和 词性 标注 环 蕊 ， 作 者 分 别 使 用 图 模型 
推出 短文 本 的 最 优 分 词 方式 和 词 的 词性 ; 在 概念 识别 环节 ， 每 个 词 被 表示 成 以 概念 为 维度 的 向 量 。 为 了 进一步 强调 LexSA 中 各 环 
节 的 相互 作用 关系 ，Wang 等 提出 为 短文 本 构建 统一 的 候选 词 关系 图 ， 并 使 用 随机 游 走 (Random Walk) 的 方法 推出 最 优 的 
分 词 、 词 性 和 词 的 概念 。 
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1.2.22. FENDER ENUS 


从 另 一 个 角 大 而 言 ， 短 文本 理解 模型 在 文本 分 析 上 的 粒度 也 有 差异 。 部 分 方法 直接 模拟 短文 本 的 表示 方式 ， 因 此 本 节 将 其 归 
为 “文本 ”粒度 。 其 余 大 多 数 万 法 则 以 词 为 基础 ， 这 些 万 法 首先 推出 每 个 词 的 表示 ， 然 后 使 用 额外 的 合成 方式 推出 短文 本 的 表 
示 。 本 闻 将 这 毕 方法 归 为 “ 词 ”粒度 。 本 节 将 深入 讨论 1.2.1 节 中 的 短文 本 理解 模型 在 文本 分 析 粒 度 上 的 差异 ， 并 从 应 用 层面 论 
证 万 法 的 适用 性 。 


1. 文 本 粒度 模型 


首先 ， 文 本 粒度 的 模型 包含 LSA 模 型 、LDA 模 型 和 PV。 这 些 模型 均 尝试 直接 推导 出 短文 本 的 向 量 表示 作为 模型 的 输出 。 在 
LSA 模 型 中 ， 通 过 构建 一 个 词 与 文本 的 共 现 矩阵 ， 每 个 文本 可 用 以 词 为 维度 的 向 量 表示 。 作 为 结果 ， 可 得 到 每 个 文本 的 主题 分 
布 。 PV 通过 神经 网 络 推 测 (inference) 的 方式 获取 文本 向 量 的 最 优 参数 。 上 述 模型 所 得 的 文本 向 量 均 可 以 直接 用 于 与 这 些 文本 
相关 的 任务 ， 如 文本 分 类 [后 、 聚 类 DJ 和 摘要 生成 内 。 值 得 注意 的 是 ，LSA 模 型 同时 输出 词 向 量 。 因 而 在 短文 本 数量 不 足 的 情况 
下 ， 可 以 先 采 用 基于 大 量 完整 文本 的 LSA 模 型 获取 词 向 量 ， 再 通过 额外 的 合成 方法 获取 短文 本 向 量 。 对 于 LDA 模 型 和 PV 而 言 ， 其 
模型 亦 可 以 通过 额外 的 文本 训练 ， 然 后 应 用 于 短文 本 。 


2. 词 粒度 模型 


同 LSA 模 型 、LDA 模 型 和 PV 相 比 ， 其 他 模型 (NLM、ESA 模 型 等 ) 均 属于 词 粒度 模型 ， 因 为 这 些 模型 的 产 出 仅 为 词 向 量 。 
针对 短文 本 理解 这 一 任务 ， 必 须 使 用 额外 的 合成 手段 来 推出 短文 本 的 表示 。 例 如 ， 在 参考 文献 Pjloll/j 等 工作 中 ， 作 者 均 利用 词 向 
量 推导 出 文本 表示 ， 并 用 于 后 续 的 文本 相似 度 判断 、 文 本 复述 、 情 感 分 析 等 任务 。 这 里 的 一 个 特例 为 概念 化 模型 ， 由 于 概念 化 可 
以 直接 基于 语 境 推出 短文 本 中 每 个 词 的 概念 ， 这 样 的 输出 方式 已 经 可 以 满足 机 器 短文 本 理解 的 需求 。 因 而 概念 化 虽 属 于 词 粒度 的 
模型 但 并 不 需要 额外 的 文本 合成 。 


3. 文 本 合成 


如 何 通过 词 向 量 获取 任意 长 度 的 文本 向 量 (包括 短文 本 ) 是 时 下 流行 的 一 个 研究 领域 。 根 据 复杂 度 的 不 同 ， 文 本 合成 方法 可 
被 大 致 分 为 代数 运算 模型 [8910101111T121、 张 量 模型 03104015 和 神经 网 络 模型 06071181019I201， 


代数 运算 模型 : 最 早 的 合成 模型 由 Mitchell 和 Lapatal*1| 提 出 。 其 模型 使 用 逐 点 的 (point-wise) 向 量 相 加 的 方式 从 词 向 量 
推出 文本 向 量 。 虽 然 这 一 基于 “ 词 袋 ”的 方法 忽略 了 句子 中 的 词 序 (“cat eats fish” 和 “fish eats cat” 将 有 相同 的 表示 ) , 
但 事实 表明 其 在 很 多 自然 语言 处 理 任务 上 有 着 不 错 的 效果 ， 且 其 常常 被 用 作 复杂 模型 的 基准 <j。 类 似 的 代数 运算 模型 还 有 逐 点 
的 向 量 乘积 的 [| 以 及 乘法 与 加 法 的 结合 运算 |<9|。 


张 量 模型 : 张 量 模型 ?3 为 代数 运算 模型 的 延伸 ， 其 试图 强调 不 同 词性 的 词 在 语义 合成 中 的 不 同 角色 。 例 如 在 red car 这 
个 词组 中 ， 形 容 词 red 对 名 词 car 起 修饰 作用 。 而 在 eat apple 中 ， 动 词 eat 的 角色 好 比 作用 于 apple 的 函数 。 从 这 个 角度 而 言 ， 将 
不 同 词性 的 词 均 表示 为 同等 维度 的 向 量 过 于 简化 。 因 而 ， 在 张 量 模型 中 不 同 词性 的 词 被 表示 为 不 同 维度 的 张 量 ， 整 个 句子 的 表示 
方式 以 张 量 乘法 的 形式 获取 。 目 前 ， 张 量 模型 的 最 大 挑战 是 如 何 获取 向 量 与 张 量 的 映射 关系 [< 


神经 网 络 模型 : 时 下 最 为 流行 的 文本 合成 模型 为 基于 神经 网 络 的 模型 ， 如 Recursive Neural Network (RecNN) B0IB 小 
Recurrent Neural Network (RNN) [32] Convolutional Neural Network (CNN) 331934| 等 ， 在 这 些 模型 中 ， 最 基本 的 合 
成 单元 为 神经 网 络 。 通 常 的 形式 为 神经 网 络 根 据 输 入 向 量 x1、x2 推 出 其 组 合 向 量 y: 


y= f(WLx, : x | Fb) 


在 上 式 中 W 和 和 b 为 神经 网 络 参数 ， [x1 : x2] API MALATE, IRER. 


在 具体 的 文本 合成 中 ， 不 同 的 神经 网 络 模 型 的 构造 不 同 。 例 如 ，RecNN 依 赖 于 语法 树 开 展 逐 层 的 语义 合成 ， 它 无 法 被 用 于 
短文 本 。 相 比 之 下 ，RNN (序列 合成 ) CNN ( 卷 积 合成 ) 都 可 以 通过 词 向 量 快速 推导 出 短文 本 向 量 。 
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1.3 ”短文 本 理解 框 染 


针对 上 述 研 究 问题 与 研究 现状 ， 本 书 将 围绕 短文 本 理解 的 各 项 需求 及 挑战 ， 重 点 介绍 显 性 模型 中 基于 概念 化 模型 进行 短文 本 
理解 中 的 关键 性 技术 ， 如 图 1-6 所 示 。 
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图 1-6 ”基于 概念 化 的 短文 本 理解 研究 框架 


在 语义 网 络 层 ， 主 要 是 构建 理解 短文 本 所 需要 的 额外 知识 源 ， 即 知识 库 系统 或 者 语义 网 络 。 知 识 库 包 含 概念、 实体 、 属 性 和 
天 系 ， 当 关系 足够 丰富 时 ， 便 构成 了 语义 网 络 ， 它 在 许多 应 用 中 的 作用 日 渐 突出 。 其 中 ， 知 识 库 中 的 概念 和 实体 关系 已 经 有 较为 
充分 的 研究 ， 因 此 本 书 主 要 介绍 基于 概率 的 属性 提取 与 推导 ， 从 而 完善 整个 语义 网 络 ， 以 支持 其 上 的 模型 构建 。 


在 概念 化 层 ， 本 书 首先 介绍 利用 语义 网 络 构建 单 实 体 概念 化 模型 。 提 出 一 种 基于 典型 性 和 点 互信 息 (PMI) 的 基本 层次 概念 
化 (Basic-level Conceptualization, BLC) 方法 ， 将 单 实 体 映射 到 一 组 最 能 刻画 这 个 实体 各 种 特征 的 概念 上 ， 并 附着 于 概率 
值 ， 以 支持 短文 本 概念 化 。 基 于 概念 化 的 短文 本 理解 的 目标 是 把 短文 本 (如 搜索 引擎 中 的 查询 关键 字 ) 所 包含 的 实体 映射 到 语义 
网 络 中 的 概念 上 。 其 中 需要 解决 的 核心 问题 是 利用 短文 本 中 有 限 的 上 下 文 对 词义 进行 消 歧 。 利 用 动词 、 形 容 词 、 实 体 及 其 属性 ， 
首先 从 大 量 的 网 络 语 料 中 挖掘 出 它们 的 各 种 关系 。 再 利用 这 些 挖掘 得 到 的 知识 ， 提 出 一 个 整体 概念 化 模型 ， 使 用 基于 随机 游 走 的 
迭代 算法 将 查询 中 的 词语 概念 化 。 


利用 上 述 两 个 针对 蛙 实 体 以 及 短文 本 的 模型 ， 可 以 进一步 解决 基于 概念 化 的 短文 本 主题 词 与 修饰 词 检测 。 在 短文 本 理解 中 ， 
主题 词 与 修饰 词 的 检测 是 一 个 非常 重要 的 问题 。 然 而 在 许多 情况 下 ， 短 文本 (如 搜索 引擎 中 的 查询 关键 字 等 ) 并 不 遵守 语法 规 
则 。 现 有 方法 通常 基于 粗 烽 度 、 领 域 相关 ， 以 及 需要 大 量 训练 数据 。 本 书 将 介绍 一 种 基于 语义 的 短文 本 主题 词 与 修饰 词 检测 万 
法 。 此 万 法 盏 先 从 搜索 日 志 中 获取 大 量 实体 级 别 的 “主题 词 -修饰 词 ” 对 ， 然 后 通过 概念 化 模型 将 这 些 实体 对 归纳 至 概念 级 别 ， 
最 后 通过 这 些 精 细 且 精确 的 市 权重 的 概念 模式 来 进行 主题 词 与 修饰 词 的 检测 。 


此 外 ， 单 实体 概念 化 模型 也 能 够 帮助 解决 基于 概念 化 的 词 相似 度 计 算 。 计 算 两 个 词 之 间 的 相似 度 对 很 多 文本 分 析 理 解 相关 的 
应 用 至 关 重 要 。 目 前 ， 这 一 任务 主要 有 两 种 解决 方法 : 基于 知识 的 方法 和 基于 文集 的 方法 。 然 而 ， 这 些 方法 主要 应 用 在 单词 之 间 
的 语义 相似 度 计算 ,无 法 扩展 到 多 个 单词 组 成 的 多 词 表 达 式 或 文本 。 针 对 此 间 题 ， 本 书 将 介绍 一 种 基于 语义 网 络 的 词 相似 度 计算 
方法 。 该 语义 网 络 基于 十 亿 级 的 网 页 文本 创建 ， 包 含 百 万 级 的 概念 。 本 书 首先 阐述 如 何 将 两 个 词 映 里 到 概念 空间 ， 进 而 介绍 一 种 
概念 聚 类 的 万 法 以 提高 相似 度 度量 的 准确 性 。 


在 应 用 层 ， 利 用 概念 化 层 所 构建 的 各 个 模型 ， 可 以 有 效应 用 在 不 同 的 任务 中 ， 如 广告 天 键 字 匹配 、 搜 索 排 序 、 查 询 推 荐 、 短 
文本 聚 类 、 智 能 问答 系统 、Web 表 格 理解 等 。 本 书 选取 搜索 广告 应 用 场景 ， 展 示 了 一 种 基于 概念 化 的 海量 竞价 天 键 字 匹配 技 
术 。 搜 索 广 告 是 搜索 引擎 的 主要 收入 来 源 。 广 告 商 以 关键 字 对 他 们 的 广告 竞价 ， 而 搜索 引擎 在 竞价 天 键 字 基 础 上 通过 匹配 用 户 碍 
询 进行 相关 广告 推送 。 由 于 得 询 和 竞价 关键 字 都 是 短文 本 并 且 不 能 由 标准 的 词 安 (bag-of-words) 方法 建 模 ， 大 部 分 现 有 方法 
是 利用 用 户 行 为 数据 (例如 点 击 数据 、 会 话 数据 等 ) 去 填补 在 匹配 竞价 关键 字 与 用 户 查 询 上 的 语义 差距 。 然 而 这 种 方法 却 不 能 处 
理 没 有 很 多 用 户 行 为 数据 的 长 尾 查 询 。 尽 管 它 特殊 罕见 ， 长 尾 查 询 整 体 上 却 占据 相当 大 的 查询 量 ， 并 且 是 搜索 引 党 收入 的 一 个 重 
要 来 源 。 本 书 将 介绍 一 种 匹配 查询 和 竞价 关键 字 的 新 万 法 。 利 用 概率 分 类 和 大 型 同 现 网 络 ， 把 短文 本 概念 化 成 一 组 相关 概念 。 为 
了 处 理 大 量 查 询 和 海量 关键 字 ， 创 建 概念 的 语义 过 3 引 : 通过 测量 它们 在 概率 空间 的 相似 度 ， 对 于 给 定 的 查询 选择 相关 的 竞价 天 键 
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第 2 章 ” 基 于 概率 的 属性 提取 与 推导 


知识 库 包 仿 概 仿 、 实 体 、 属 性 和 关系 ， 它 在 许多 应 用 中 的 作用 日 渐 突出 。 本 章 强调 (概念 和 实体 的 ) 属性 知识 对 推测 的 重要 
性 ， 并 提出 一 种 为 百 万 级 的 概念 推导 出 属性 的 方法 。 该 万 法 将 属性 和 概念 的 天 系 量化 为 典型 性 (typicality) ， 使 用 多 个 数据 源 
合计 算 这 些 典 型 度 得 分 ， 这 些 数据 源 包括 网 页 文本 、 搜 索 记录 和 现 有 的 知识 库 。 该 方法 创新 性 地 将 基于 概念 和 实体 的 模式 融 
合计 算 典 型 度 得 分 ， 大 量 的 实验 证 明了 该 万 法 的 可 行 性 。 


创建 概念 、 实 体 和 属性 的 知识 库 的 目的 在 于 赋予 机 器 像 人 类 一 样 的 推测 能 力 。 在 推理 这 个 任务 中 ， 输 入 数据 往往 稀 玖 、 品 点 
大 有 目 包 含 上 收 义 。 人 类 能 很 好 地 理解 这 样 的 文本 是 因为 人 类 具备 抽象 的 先 验 知识 。 类 似 的 ， 知 识 库 冒 在 为 机 器 提供 这 样 的 先 验 知 
识 ， 从 而 使 其 能 够 调用 知识 来 完成 思考 判断 。 可 见 ， 知 识 库 是 实现 人 工 智 能 必 不 可 少 的 元 素 。 


一 个 知识 库 包 仿 一 系列 的 概念 、 实 体 和 属性 的 天 系 。 在 这 些 天 系 中 ， 如 下 三 类 尤为 重 要 : 


-isA: 子 概念 和 概念 的 关系 (如 IT company isA company) o 
-isInstanceOf: 实体 和 概念 的 关系 (Je Microsoft isInstanceOf company) 。 
-isPropertyOf: 属性 和 概念 的 关系 (如 colot isPropertyOf wine) 。 


本 章 强调 属性 和 概念 的 关系 (isPropertyOf) 对 基于 知识 的 推测 尤其 重要 。 然 而 ,为 了 完成 推断 ， 机 器 不 仪 仅 需 要 了 解 概 念 
的 属性 ， 还 需要 知道 每 个 属性 的 典型 性 。 本 章 将 重点 介绍 一 种 目 动 获 取 属 性 并 为 其 打分 的 万 法 。 访 万 法 的 产 出 为 一 个 大 型 的 数据 
库 ， 如 表 2-1 所 示 ， 整 个 数据 库 包 含 百 万 级 的 概念 、 属 性 以 及 属性 的 得 分 。 这 些 分 数 对 推测 尤为 重要 ， 它 们 被 定义 为 如 下 的 典型 
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度 得 分 。 
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-P (cla) 表示 概念 c 在 属性 a 上 的 典型 度 。 


-P (alc) 表示 属性 a 在 概念 c 上 的 典型 度 。 


表 2-1 概念 、 属 性 和 典型 度 得 分 


概 念 Plalc) 
name DUAE 0. 0846 
company operating profit J. 0. 0218 
people ). 5760 0. 0694 
country population Zork 0. 0436 


如 表 2-1 所 示 ，company 不 是 name 的 典型 概念 ， 因 为 很 多 别 的 概念 都 有 name 这 个 属性 。 相 比 之 下 ，company 更 像 是 
operating profit 的 典型 概念 。 这 些 典 型 性 被 量化 为 表 中 的 得 分 : 


P (company operating profit) >P (company | name) (2.1) 
从 另 一 个 角度 而 言 ， 当 人 们 谈论 一 个 company 时 ， 更 倾向 于 被 提 到 的 是 它 的 name， 而 不 是 operating profit, Att: 
P Coperating profit| company) <P (name|company?) (2. 2) 


如 表 2-1 所 示 ， 式 (2.2) 中 两 项 的 典型 度 得 分 差异 为 0.06， 远 小 于 式 (2.1) 中 两 项 的 典型 度 得 分 差异 0.9， 这 与 人 类 的 认 知 
一 致 。 


人 至此， 本 章 前 述 了 概念 、 属 性 和 典型 度 得 分 对 基于 知识 推测 的 重要 性 。 直 观 地 ， 给 出 短文 本 “capital 
city，population”， 人 们 会 联想 到 country。 给 出 “color，body，smell”， 人 们 则 会 联想 到 wine。 然 而 在 大 多 数 情 况 下 ， 属 
性 和 概念 的 关联 并 不 那么 直观 。 以 图 2-1 为 例 ， 假 设 在 网 页 上 看 到 该 图 ， 人 们 能 否 很 容易 地 推测 出 这 张 表格 的 标题 ? 


根据 单一 属性 ， 如 website， 人 类 无 法 准确 推测 图 表 合 义 。 然 而 ， 如 图 2-1 所 示 ， 当 系统 看 到 更 多 属性 时 ， 它 所 推测 到 的 候 
选 概 念 将 减少 。 当 图 表 呈 现 出 6 个 或 7 个 属性 时 ， 系 统 能 够 以 较 高 的 置信 和 度 获 取 正 确 的 概念 。 而 典型 度 得 分 P (c | a) 和 P (a | 


C) 在 这 一 过 程 中 扮演 着 十 分 重要 的 角色 。 
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a) 一 个 包含 表 头 的 Web 表 格 
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b) 随 看 属性 增多 ， 其 关联 的 概念 数量 迅速 下 降 
图 2-1 人 类 是 如 何 推测 图 表 含 义 的 
下 面 是 另外 一 个 例子 。 
The Coolpix P7100is announced.The powerful lens with 7.1x zoom offers high resolution (10MP) images. 


假设 读者 不 知道 Coolpix P7100 为 一 款 相 机 ， 他 是 否 能 够 根据 语 境 推测 到 其 讲述 的 是 相机 呢 ? 也 许可 以 。 那 么 具有 知识 库 的 
机 器 能 否 完成 相同 的 推测 呢 ? 假设 通过 自然 语言 处 理 拷 术 ，lens、zoom、resolution 都 被 标注 为 知识 库 中 的 属性 词 ， 且 只 有 
camera 和 smart phone 包 含 这 些 属性 。 那 么 ， 机 器 只 需 了 解 概率 P (camera | lens; zoom; resolution) AFP (smart 


phone | lens; zoom; resolution) ， 便 可 成 功 完成 推测 。 换 言 之 ， 机 器 需要 知道 camera 是 上 述 属性 更 加 上 典型 的 概念 。 
通过 典型 度 得 分 ， 机 器 很 容易 便 可 完成 上 述 推测 。 典 型 度 得 分 的 目的 在 于 为 属性 寻找 最 可 能 的 概念 。 更 具体 地 说 ， 需 要 找到 
C 
c—argmaxP (c | A) 
, 


其 中 A= (lens, zoom, resolution) ， 为 一 系列 属性 。P (c| A) 可 以 用 朴素 贝 叶 斯 模型 得 于 


POA EAP? I PO) . || PCa | c) 


(i AJ = 
P(c | A) P(A) i 


至 此 ， 该 问题 被 转 化 为 寻找 一 系列 的 典型 度 得 分 P (cla) . 


为 支持 上 述 的 机 器 推测 问题 ， 本 章 将 专注 于 如 下 两 个 任务 : 获取 属性 和 为 属性 打分 。 这 些 任务 在 概率 知识 库 Probase[TIZ] 上 


完成 。 访 知识 库 包 含 了 大 量 的 概念 、 实 体 和 isA 天 系 。 本 章 的 方法 有 如 下 贡献 : 


- 该 万 法 创新 性 地 为 属性 获取 典型 度 得 分 。 本 章 将 论证 带 有 典型 度 得 分 的 概念 和 属性 对 很 多 实际 应 用 意义 重大 。 在 这 项 工作 


中 ， 典 型 度 得 分 被 诠释 为 两 个 方面 : 频率 (frequency) 和 家 族 相似 度 (family resemblance) ， 它 们 将 被 表示 为 概率 得 分 。 


该 方法 在 获取 属性 的 时 候 能 够 处 理 歧义 。 消 歧 是 一 项 很 大 的 挑战 ， 且 在 过 往 的 属性 提取 方法 中 很 少 被 强调 。 例 如 ， 当 机 器 
试图 获取 wine 的 属性 时 ， 它 会 错误 地 将 短文 “the mayor of Bordeaux” 4% “mayor” ”标注 为 wine 的 属性 。 事 实 上 ，Bordeaux 一 词 包 
含 歧 义 ， 它 不 仅 是 酒 的 名 字 ， 还 指法 国 西 南 的 一 个 小 城市 。 本 章 的 工作 针对 基于 实体 的 属性 提取 中 的 歧义 ， 改 进 基于 概念 的 属性 
提取 方法 ， 使 其 不 受 歧 义 的 影响 。 


: 该 方法 从 多 个 来 源 获取 数据 ， 并 使 用 一 种 新 的 排序 万 法 合并 这 些 不 同 来 源 的 数据 。 每 个 数据 源 和 方法 都 有 其 独特 特征 。 例 
如 ，name 这 个 属性 可 能 会 被 基于 概念 的 属性 提取 方法 识别 ， 但 不 能 通过 基于 实体 的 方法 获取 。biography 这 个 属性 则 恰恰 相反 。 因 
而 ， 通 过 使 用 不 同 的 方法 和 数据 源 有 助 于 得 到 更 加 全 面 的 属性 信息 ， 并 帮助 解决 歧义 、 噪 声 、 偏 见 和 履 盖 率 的 局 限 性 。 本 章 将 对 
通过 不 同 数 据 源 提取 到 的 属性 进行 比较 ， 并 提出 一 种 新 的 排序 算法 来 合并 这 些 属性 提取 的 结果 。 在 这 一 问题 上 ， 现 有 的 方法 使 用 


x 
了 回归 口 来 聚合 结果 ， 但 需要 人 为 评估 确定 某 些 数值 。 而 新 提出 的 排序 算法 没有 这 一 需求 。 


本 章 结构 如 下 : 2.2 节 介绍 为 百 万 级 概念 获取 属性 的 方法 ; 2.3 节 阐述 为 属性 标记 权重 、 聚 合 权重 的 方法 ;本 章 相关 工作 的 讨 


论 和 结论 将 分 别 在 2.4 节 和 2.5 节 给 出 ， 


[1] Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding | C] .Proceedings of the 2012 ACM 
SIGMOD International Conference on Management of Data. ACM, 2012: 481-492. 

[2] Song Y, Wang H, Wang Z, et al.Short Text Conceptualization Using A Probabilistic Knowledgebase [C] .International Joint 
Conference on Artificial Intelligence, 2011: 2330-2336. 

[3] Cafarella MJ, Halevy A, Wang D Z, et al.Webtables: Exploring The Power of Tables on The Web [J] .Proceedings of the VLDB 


Endowment, 2008, 1 (1) : 538-549. 


2.2 ”属性 提取 


本 节 介 绍 基于 知识 的 属性 提取 的 方法， 该 方法 可 从 多 数据 源 提取 (概念 ， 属 性 ) 对 。 为 (概念 ， 属 性 ) 对 打分 的 方法 将 在 
2.3 节 给 出 。 


2.2.1 属性 提取 的 整体 框 染 


如 图 2-2 所 示 ， 本 章 的 属性 提取 方法 基于 概率 数据 库 Probase， 并 从 三 种 数据 源 获 取 数 据 。2.2.2 节 将 介绍 Probase 的 具体 信 
息 ， 该 方法 侧重 的 数据 类 型 为 网 站 数据 、 搜 索 数 据 和 各 种 结构 数据 ， 表 2-2 总 结 了 这 些 数 据 类 型 。 网 站 数据 包括 240TB 的 网 页 文 
本 ， 搜 索 数 据 包 含 6 个 月 内 搜索 频率 大 于 2 的 搜索 查询 语句 ， 结 构 数据 为 DBpediall] 中 获取 的 (实体 ， 属 性 ) 对 。 

本 章 涉 及 的 属性 提取 方法 包含 两 类 : 基于 概念 的 方法 和 基于 实体 的 方法 。 前 者 可 直接 获取 概念 的 属性 ， 而 后 者 需 先 获取 同一 


概念 内 实体 的 属性 ， 然 后 再 聚合 这 些 实体 的 属性 以 获取 概念 的 属性 。 两 种 属性 提取 的 万 法 都 将 被 应 用 于 网 站 数据 。 对 于 搜索 数据 
和 结构 化 数据 (DBpedia) ,只 有 基于 实体 的 属性 提取 万 法 可 用 。 属 性 提取 方法 的 细节 将 在 2.2.3 书 给 出 。 通 过 不 同 万 法 和 数据 


源 提取 的 属性 不 完全 重 著 ， 因 而 可 以 互补 。 


Probase 


其 他 知识 库 


基于 概念 的 其 于 实体 的 ”| ;| 基于 实体 的 查询 基于 实体 的 
属性 抽取 属性 抽取 日 志 抽 取 知识 库 抽取 


“典型 性 ” 
学 习 


BB RUE P(a |c) 


Pcg(a | C) 


训 续 数 气 


图 2-2 ”属性 提取 的 整体 框架 
表 2-2 三 种 数据 来 源 总 结 


网 页 文档 Bing( 必 应 ) 查询 日 志 DBpedia 
大 小 巨大 (240TB) 大 (9GB) 相对 较 小 (64. 3MB) 


2h HJ 无 结构 ,但 包含 句法 无 结构 , 且 无 句法 结构 的 
方法 基于 概念 的 方法 基于 实体 的 方法 基于 实体 的 方法 


[1] Auer S, Bizer C, Kobilarov G, et al.DBpedia: A Nucleus for a Web of Open Data [M] .Springer, 2007. 


2.2.2 ” 概 座 IsSA 网 络 


本 章 工 作 使 用 概率 知识 库 Probase[1] 来 辅助 属性 提取 。Probase 旨 在 建立 一 个 包含 人 类 思维 所 有 概念 的 jsA 关 系 网 络 。isA 关 


系 通 过 赫 斯 特 语言 模式 (Hearst linguistic pattern) 提取 [人 站， 即 SUCH AS 模 式 。 例 如 ， 通 过 一 个 包含 “...artists such as 
Pablo Picasso...” 的 句子 可 以 获知 artist 是 Pablo Picasso 的 一 个 上 位 词 。 


Probase 有 两 个 特点 。 首 先 ， 它 的 履 震 学 围 很 广 ， 宫 括 了 从 十 亿 数 量 级 的 网 页 中 获取 的 百 万 级 概念 和 实体 。 它 不 仅 包 含 诸 
如 “country” 和 “city” 的 广义 概念 ， 还 记录 了 类 似 “basic watercolor technique” #] "famous wedding dress 
designer” 这 样 的 具体 概念 。 因 而 ，Probase 能 很 好 地 诠释 人 的 沟通 。Probase 的 另 一 个 特点 是 它 是 一 个 概率 性 知识 库 。 它 包 合 
每 对 (概念 ， 子 概念 ) 或 (概念 ， 实 体 ) 的 共 现 次 数 。 这 些 共 现 信息 方便 于 isA 关 系 中 上 典型 度 得 分 的 计算 。 例 如 : 


n (instance, concept) 


(22.9 


P (instance | concept) — 
» | . 7/1 (1nstance.concept) 
Instance 


其 中 instance 表 示 isA 关 系 中 的 实体 ，concept 表 示 概 念 。n (instance, concept) 表示 概念 (concept) 和 实体 
(instance) 的 共 现 次 数 。 典 型 度 得 分 对 短文 的 理解 十 分 重要 。 


[1] Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding | C] .Proceedings of the 2012 ACM 
SIGMOD International Conference on Management of Data. ACM, 2012: 481-492. 
[2] Hearst M A. Automatic Acquisition of Hyponyms From Large Text Corpora | C] .Proceedings of The 14th Conference on Computational 


Linguistics, 1992: 539-545. 


2.2.3 ”基于 概念 和 基于 实体 的 属性 提取 


本 忆 将 重点 介绍 基于 概念 和 基于 实体 的 属性 提取 万 法 ， 数 据 来 源 为 网 站 数据 、 搜 索 数 据 和 已 有 知识 库 ， 两 种 属性 提取 方法 的 
结果 将 被 比较 。 本 市 还 将 介绍 一 种 可 以 提高 属性 提取 质量 的 过 渡 方 式 。 


1. 网 页 文本 的 属性 提取 


很 多 信息 提取 方法 侧重 于 迭代 寻找 符合 要 求 的 语法 模式 。 然 而 ， 这 些 方 法 的 一 个 不 足 忆 处 在 于 高 质量 的 语法 模式 很 少 ， 大 多 
数 模 式 都 仓 在 噪声 。 因 此 ， 本 草 所 米 用 的 方法 侧重 于 如 下 高 质量 的 语法 模式 以 尽 可 能 准确 地 处 理 文 本 (提高 准确 率 ) ， 并 且 从 大 
量 网 页 文本 中 获取 属性 (提高 召回 率 ) : 


` 基于 概念 的 属性 (简称 CB) 提取 的 语法 模式 : 
the<a œof(the/a/an)<c>lis | (2.4) 


基于 实体 的 属性 (简称 IB) 提取 的 语法 模式 : 


the«Ca >of(the/a/an) <i >| is | (2.9) 


这 里 ，<a> 为 希望 获取 的 目标 属性 ，<c> 为 希望 获取 的 目标 概念 ，<i> 为 希望 获取 的 目标 实体 。<c> 和 <i> 都 可 以 通过 
Probase 的 语义 网 络 获取 。 例 如 ， 假 设 目标 概念 <c> =wine， 通 过 句子 “...the acidity of a wine is an essential component 


of the winehttp://www.hzcourse.com/resource/readBook? 


path z/openresources/teach ebook/uncompressed/16286/OEBPS/Text/…” 可 获知 <a> =acidity 为 wine 的 一 个 候选 属性 。 
更 进一步 ， 通 过 句子 “the taste of Bordeaux is..." nJ3x4[]«a» =taste 为 “Bordeaux” 的 一 个 属性 。 通 过 Probase， 机 器 了 解 
到 “Bordeaux” 为 wine 这 个 概念 的 一 个 实体 ， 因 为 获知 <a> =taste 也 是 wine 的 一 个 候选 属性 。 


网 页 文本 的 特征 提取 结果 是 一 系列 (概念 ， 属 性 ) 对 的 集合 。 在 此 基础 上 的 另 一 项 任务 是 为 每 对 关系 标注 权重 。 假 设 CB 的 
结果 (c, a) 和 IB 的 结果 (i, a) 被 表示 为 元 组 (c, a, n (c, a) ) 和 (i, a, n (i, a) ) ， 其 中 n (c, a) 为 <c> 和 <a> 的 


共 现 次 数 ,n (i, a) 为 <i> 和 <a> 的 共 现 次 数 ， 这 些 元 组 可 被 用 来 计算 典型 度 得 分 。 


由 于 需要 从 大 量 网 页 中 获取 属性 ， 所 以 现 有 的 基于 词性 标注 的 模式 挖掘 方法 无 法 使 用 。 取 而 代 之 ， 本 章 的 方法 采用 之 前 提 到 
的 模式 轻 量 提取 。 据 以 往 研 究 表明 中， 基于 “is” 的 提取 可 以 产生 较 高 质量 的 结果 ， 同 时 不 需要 词性 标注 。 在 提取 过 程 中 的 另外 
一 项 挑战 是 冠 词 “the/a/an” 的 使 用 。 对 于 CB 模 式 ， 冠 词 的 使 用 对 过 滤 概 念 目 身 摘 述 必 不 可 少 (比如 “the definition of 
wine" zy “the plural form of country" ) 。 对 于 IB 模 式 ， 冠 词 可 人 航 有 选择 地 使 用 ， 并 且 取 决 于 实体 <i> 是 否 为 命名 实体 ( 例 
如 Microsoft 为 命名 实体 ， 而 software company 不 是 ) 。 为 区 别 这 两 种 情况 ， 本 章 的 方法 将 把 所 有 以 大 写字 母 开 头 的 实体 当成 
命名 实体 ， 可 以 不 需要 冠 词 。 其 余 情况 下 的 实体 抽取 则 需要 依靠 冠 词 进行 确认 。 


2. 外 部 知识 库 的 属性 (简称 KB) 提取 


属性 提取 还 从 已 存在 的 知识 库 进行 。 这 项 工作 使 用 基于 Wikipedia 中 结构 信息 的 DBpedia。DBpedia 没 有 基于 概念 的 属性 ， 
因此 ， 基 于 实体 的 属性 提取 方法 被 使 用 。 根 据 DBpedia 的 实体 页 (由 属性 搞 述 ) ， 一 系列 的 (i，a) 对 可 被 获取 。 然 
而 ，DBpedia 不 包含 可 推出 属性 典型 性 的 任何 信息 ， 因 此 ， 所 有 的 (i, a) 不 做 区 分 设 定 : n (i, a) =1， 遂 可 生成 一 系列 的 
(i, a, n (i, a) ) 元 组 。 B&n (i, a) =1， 但 由 于 同一 概念 内 的 实体 舍 有 不 同属 性 ， 我 们 仍 可 按 移 前 万 法 计算 概念 -属性 的 


3. 搜 索 日 志 的 属性 (简称 QB) 提取 


为 使 用 基于 实体 的 方法 从 搜索 日 志 中 提取 属性 ， 一 项 先前 研究 中 的 方法 四 被 采用 以 提取 尽 可 能 多 的 元 组 。 在 搜索 日 志 中 基于 
概念 的 提取 方法 亦 不 能 工作 ， 这 是 由 于 人 们 在 搜索 时 往往 对 具体 的 实体 更 感 兴趣 。 在 方法 的 第 一 阶段 ， 候 选 的 实体 属性 关系 对 
(i, a) 被 从 搜索 日 志 中 以 “the<a>of (the/a/an) <i>” 的 模式 提取 ， 以 AaB 表 示 。 接 下 来 将 候选 集合 拓展 为 Alu， 使 其 包含 


通过 |B 和 KB 获取 的 属性 (分 别 以 Alp 和 AkBp 表 示 ) : 


Aw=AwUArsUAows (2. 6) 


在 第 二 阶段 ， 搜 索 日 志 中 每 对 (i, a) 中 的 j 和 a 的 共 现 次 数 n (i, a) 被 统计 ， 以 生成 (i，a，n (i, a) ) 元 组 集合 。 这 个 
集合 会 按照 先前 提出 的 方式 处 理 。 


: CB | IB 


[^ EN EE PEE la Sees eae See un ns ct Pad id tsa E E A 
Q., 
dal. LE NE mi AA 
慨 念 state 的 属性 
图 2-3 ”网 页 文本 CB 和 IB 的 属性 分 布 
4. 属 性 分 布 


下 面 将 比较 CB 和 IB 获取 的 属性 的 差异 。 图 2-3 对 比 了 二 者 在 state 这 个 概念 上 的 属性 分 布 差 异 。 举 例 而 言 ，name 这 个 属性 在 
CB 模式 下 被 频繁 观察 ， 比 如 会 出 现 “the name of a state is...”。 然 而 人 们 不 会 在 某 个 上 县 体 的 state 上 提 到 name 这 个 属性 ， 比 
如 不 会 出 现 “the name of Washington is.…”。 根 据 比较 ，CB 和 1B 两 种 模式 的 提取 是 互补 的 。 


CB 属性 的 优点 在 于 可 以 直接 将 属性 绑 定 至 概念 ， 如 通过 “the population of a state" ， 机 器 可 以 自行 将 population 这 个 
属性 绑 定 至 state 这 个 概念 下 。 相 比 之 下 ，1B 模 式 “the population of Washington” 对 机 器 识别 而 言 则 颇具 挑战 性 ， 因 为 
Washington 可 能 属于 不 同 的 概念 ， 比 如 state 或 president。 

然而 ，1B 模 式 更 容易 提取 高 质量 的 属性 。 例 如 ， 昌 然 “the population of a state" 这 个 模式 不 常 被 观测 到 ， 但 是 当 把 
state 蔡 换 为 某 一 具体 实体 时 ， 则 可 以 收集 到 足够 的 模式 ， 如 “the population of Washington”。 这 表明 IB 模 式 可 以 通过 大 量 


统计 信息 获取 高 质量 属性 ， 与 CB 模式 互补 。 


5. 模 式 提取 的 过 滤 


这 一 部 分 将 介绍 通过 过 渡 来 提高 属性 质量 的 方法 。 首 先 将 收集 到 的 模式 语句 分 成 下 述 三 类 : 


- C1: The CEO of Microsoft is: :: 属性 
: C2: The rest of China has been: 修饰 表达 式 
C3: The University of Chicago is…: 包含 of 的 名 词 短 语 


在 这 三 类 结果 中 ，C2 和 5C3 会 产生 合 噪 声 的 结果 ， 过 滤 规 则 将 分 别 对 这 两 类 模式 的 结果 进行 设计 。 


C2 一 一 错误 列表 过 滤 。 为 了 解决 C2 中 的 问题 ， 一 个 “ 黑 名 单 ” 被 人 为 创建 。 名 单 中 包括 可 以 绑 定 到 任何 概念 的 属性 ， 比 
Qp: 


- The lack of vitamin A ishttp://www.hzcourse.com/resource/readBook? 


path— /openresourtces/teach_ebook/uncompressed/16286/OEBPS/Text/... 


: The rest of the country was inhttp:/ /www.hzcoutse.com/tesoutce/readBook? 


path— /openresources/teach_ebook/uncompressed/16286/OEBPS/Text/... 


: The best of The Simpsons ishttp:/ /www.hzcoutse.com/resource/readBook? 


path— /openresourtces/teach_ebook/uncompressed/16286/OEBPS/Text/... 


由 于 单词 lack、rest 和 best 并 没有 摘 述 后 面 出 现 的 概念 ， 所 以 它们 不 能 家 当成 概念 的 属性 。 奋 不 航 过 滤 ， 这 些 噪点 属性 将 会 
饼 误 地 给 出 较 大 的 P (alc) 。 


为 了 过 渡 掉 这 些 品 后 属性 ,我们 需要 确定 那些 在 很 多 并 不 相近 的 概念 中 都 被 观察 到 的 属性 。 为 此 ，49 个 不 相近 的 概念 被 人 
为 选取 。 对 于 一 个 属性 ， 其 所 涉及 的 概念 数目 将 被 统计 。 表 2-3 给 出 了 统计 的 排序 结果 。 然 而 ， 这 样 得 到 的 “ 黑 名 单 ” 中 会 错误 
地 包含 那些 确实 对 很 多 概念 都 适用 的 属性 ， 比 如 name。 为 了 进一步 地 将 这 些 属 性 从 “ 黑 名 单 ” 中 去 除 ， 属 性 的 得 分 也 将 被 考 
虑 。 高 得 分 的 属性 被 从 “ 黑 名 时 ”中 去 除 。 具 体 的 属性 打分 方式 将 在 2.3 世 给 出 。 


表 2-3 “ 黑 名 单 ” 中 的 前 几 位 


属 TE 概 念 
meaning di best 27 
definition a nature 26 
importance 3 plural 26 
rest 21 work 26 


C3 一 一 包 人 台 of 的 命名 实体 。 为 了 解决 C3 中 的 问题 ， 与 命名 实体 相关 的 of 从 名 被 过 滤 挥 ， 比 如 “the University of 
Chicago" , "the Bank of China" , “the People’ s Republic of China”。 作 为 过 滤 条 件 ， 首 先 被 考虑 的 是 首 字 母 大 写 的 
实体 。 然 后 ， 通 过 参照 数据 库 过 滤 掉 of 从 句 。 例 如 ，“the University of Chicago” 是 Probase 中 的 一 个 实体 ， 因 而 不 应 该 将 
MENU 概念 的 属性 。 这 种 方法 可 以 处 理 不 区 分 大 小 写 的 文本 ， 比 如 微 博 。 


[1] Almuhareb A, Poesio M.Attribute-Based and Value-Based Clustering: An Evaluation [C] .Conference on Empirical Methods in Natural 
Language Processing EMNLP, 2004: 158-165. 
[2] Pasca M, Durme B V.What You Seek Is What You Get: Extraction of Class Attributes from Query Logs [C] .International Joint 


Conference on Artificial Intelligence, 2007: 2832-2837. 


2.3. ”属性 得 分 推导 


本 蔬 首 先 直 观 地 讨论 属性 的 打分 原则 ， 进 而 介绍 如 何 处 理 CB 和 1IB 列 表 以 完成 对 属性 的 打分 ， 最 后 过 论 如 何 聚合 不 同 数据 源 
的 属性 得 分 。 


这 项 工作 的 目的 在 于 计算 属性 -概念 对 的 P (a | c) 数值 。 这 个 概率 分 数 对 机 器 推测 有 很 大 作用 。 


这 个 概率 分 数 被 定义 为 典型 度 (typicality) 。 在 认 知 学 和 心理 学 上 [1]， 典 型 度 被 用 来 研究 为 什么 某 些 实体 因为 某 个 概念 而 
被 人 类 特别 提起 。 例 如 ，dog 为 pet 的 典型 实体 ， 因 为 它 被 频繁 地 当成 pet 提 及 ， 而 且 它 与 其 他 的 pet 实 体 具有 很 高 的 外 形 相似 
ell, A, LRA RAR SAE. 


如 果 属 性 a 为 概念 c 的 典型 属性 ， 它 应 满足 两 个 原则 : 
` 4 与 c 常 常 共同 出 现 Qu . 
- a 在 c 的 实体 的 属性 中 很 常见 (家族 相 似 度 ) o 


根据 上 述 直 党 ，population 是 country 的 一 个 典型 属性 ， 因 为 二 者 在 CB 和 1B 列 表 中 被 频繁 观测 。 更 进一步 ， 这 是 由 于 大 多 
数 country 的 实体 ， 比 如 China 和 Germany， 都 有 population 这 个 属性 。 


上 述 论证 证 实 了 使 用 CB 和 IB 量化 P (a | c) 的 意义 。 二 者 都 考虑 了 频率 原则 并 且 1B 还 考 丰 了 家 族 相 似 度 原 则 。 相 比 之 下 ， 大 
多 现 有 工作 没有 考虑 这 两 项 原则 或 只 考虑 了 其 中 一 项 ， 如 ， 参 考 文献 [126，82，124，160] 只 考虑 了 频率 ; 参考 文献 [125] 
只 考虑 了 家 族 相似 度 ;， 参考 文献 [122, 138] 没有 考虑 任何 原则 ， 而 是 使 用 属性 的 语 境 相似 度 。 


下 面 将 讲述 如 何 从 CB 列表 中 将 频率 实体 化 ， 以 及 如 何 从 1B 列 表 中 将 频率 和 家 族 相似 度 实体 化 。 


[1] Murphy G.The Big Book of Concepts | M] .MIT press, 2004. 


[2] Wittgenstein L.Philosophical Investigations [M] John Wiley & Sons, 2010. 


22 根据 CB 列表 计算 典型 度 


回顾 一 下 ，CB 列 表 的 格式 为 (c, a, n (c, a) ) 。 按 概念 c 为 列表 分 组 ， 可 得 到 概念 c 的 一 系列 属性 a， 以 及 它们 的 频率 分 


布 。 给 出 这 些 信息 ， 典 型 度 得 分 P (a | c) 可 被 计算 为 : 


WLC su ) 


Pla | c) =- (2T) 


») nies J 


* c C 


a 


2.3.3 ”根据 |B 列表 计算 上 典型 度 


下 面前 述 根据 IB 列 表 (i, a, n (i, a) ) 计算 典型 度 的 方法 。 如 前 文 所 述 ， 三 组 IB 列表 分 别 从 网 页 文本 、 搜 索 日 志和 知识 


库 中 获取 。 这 三 组 列表 的 质量 在 不 同 的 概念 c 上 有 差异 。 因 而 ， 本 重 方 法 分 别 计算 三 组 列表 的 典型 度 得 分 ， 然 后 将 三 组 得 分 同 CB 


列表 的 得 分 聚合 。 
为 将 1B 模 式 联 系 到 概念 上 ，P (a | c) 被 展开 为 : 


P (a lc) — >) Plai | c) — >) PCa | 2,0)PG | c) (2. 8) 


Ec Ec 


基于 这 项 展开 式 ， 任 务 被 转化 为 计算 P (ali, c) SUP (i| c) 。 举 例 而 言 ， 考 虑 1B 模 式 “the age of George 
Washington”， 如 果 机 器 知道 “George Washington” 是 概念 president 的 实体 ， 那 么 这 人 句 话 可 以 被 用 来 计算 属性 age 和 概念 
president 之 间 的 典型 度 得 分 。 在 上 式 中 ,，P (ali, c) 可 将 age 和 presidenti 间 的 典型 度量 化 ， 而 P (i| c) 表示 实体 “George 
Washington” 对 概念 president 的 代表 性 。 


通过 Probase 计 算 P (ali, c) FUP (i| c) : P (ali, c) 和 P (i| c) 可 以 基于 Probase 计 算 。Probase 记 录 着 “George 
Washington” 对 概念 president 的 代表 性 。 为 方便 表达 ， 下 面 假设 一 个 实体 只 属于 一 个 概念 ， 后 文 将 讨论 去 除 该 假设 的 情况 。 


首先 计算 P (ali, c). 在 P (ali, c) =P (a[i) 的 假设 下 P (ali, c) 可 被 计算 为 : 


Mea li et oP toe dM (2.9) 
») n(i.a ) 
a* €t 
接 下 来 计算 P (i | c) 。P (i| c) 可 被 转化 为 : 
P(c | 29)P (0) 
I^ TE SOM (9. 10) 
» PGli' PG") 


因此 ， 这 一 任务 被 转化 为 从 Probase 获 取 P (c|i) 。 在 先前 的 简化 假设 下 ，P (c | i) 表示 概念 c 对 某 一 实体 i 的 代表 性 。 在 
Probase 中 如 果 这 对 概念 和 实体 被 观测 到 ， 则 P (c|i) =1， 否 则 P (c|i) =0。 


在 实际 情况 中 ， 一 个 实体 可 能 属于 多 个 概念 ， 从 而 衍生 出 如 下 两 种 情况 : 


[C1] 有 歧义 的 实体 与 不 同 的 概念 相关 : “Washington” 可 能 表示 president 或 state， 而 这 两 个 概念 的 典型 属性 很 不 相 
同 。 简 单 的 计算 方式 会 导致 将 population 错 误 地 鉴别 为 概念 president 的 典型 属性 。 


[C2] 无 歧义 的 实体 与 相同 的 概念 相关 : 即使 某 一 实体 没有 歧义 ， 它 也 有 可 能 出 现在 不 同 的 语 境 中 。 例 如 ， “George 
Washington” 可 能 代表 一 个 总 统 (president) 、 爱 国 者 (patriot) 或 历史 人 物 (historical figure) 。 属 于 不 同 概 念 的 有 歧义 
实体 计算 出 的 P (i | c) 理论 上 应 比 属于 相似 概念 的 无 歧义 实体 计算 出 的 值 低 。 简 单 的 计算 不 能 考虑 概念 间 的 相似 性 。 


基于 上 述 分 析 ， 我 们 的 任务 是 无 偏见 地 估算 P (a|i, c) 和 P (cli) 的 值 。 
P (ali, c) FOP (c| i) 无 偏见 化 : 下 面 介绍 如 何 无 偏见 化 P (ali, co) FOP (c| i) ， 以 解决 C1 和 C2 两 种 情况 。 


首先 计算 P (ali, c) ， 如 果实 体 i 有 歧义 ， 一 个 从 别 的 概念 中 获取 的 更 高 h(i，a) 值 不 应 被 考虑 。 例 如 ,虽然 population 


EjWashington 3$ BHM, state name 语 境 下 ，population 不 应 被 考虑 成 president 的 属性 。 因 此 ， 相 交 率 (Join 
Ratio, JR) 这 个 概念 被 使 用 来 表示 属性 a 与 概念 c 相 关 的 可 能 性 。 


yis.) de (2.11) 


max JC(a ,c) 
a* €c 


其 中 J (a, c) 被 定义 为 概念 < 中 的 实体 舍 有 属性 a 的 次 数 ， 这 将 a 的 家 族 相似 度量 化 。 通 过 观察 ，population 之 于 
president 的 JR 得 分 接近 0。 这 是 由 于 概念 president 中 的 大 多 实体 ， 如 “George Bush" ， 都 没有 population 这 个 属性 。 


基于 这 个 观念 , x (2.9) 可 被 去 偏见 化 : 


ntis CC 


> nCGi,a* sc) 


a ^ 


PQ 43s) (2. 12) 


其 中 n (i, a, c) =n (i, a) JR (a, c). 


接 下 来 计算 ?(c | i) 。 考 虑 一 个 实体 属于 多 个 概念 的 情况 ， 如 C2，P (c| i) 可 通过 Probase 中 的 频率 统计 np (c, i) 计 
算 : 


Ha C yt J 


Pc |i) == CAs 19) 


yn, (cy ,1) 


C X 


然而 ， 使 用 上 述 公式 不 能 很 好 地 区 分 C1 和 C2。 因 而 ， 我 们 通过 计算 两 个 概念 c 和 c* 之 间 的 相似 性 来 降低 那些 从 不 相似 概念 
获取 的 频率 的 权重 。 这 一 相似 性 可 通过 Probase， 使 用 两 个 实体 集 的 Jaccard 相 似 分 数 来 计算 。 通 过 这 一 取 值 为 0~ 1 的 相似 分 数 
sim (c, c) , P (c|) 可 被 计算 为 : 


iis (c . 1 ) 


Pc | i) = -一 一 (2. 14) 


/ à 
>X n, C 30) 


C * 


$ / ^ . / 
Haleg 1) = > AAG 9 d JRE» € J 


其 中 | 。 这 样 一 来 ， 不 仅 收 义 问 题 得 以 处 理 ， 频 率 和 家 族 相似 度 两 项 典型 度 原 则 
也 得 以 反映 。 


表 2-4 对 比 了 式 (2.13) FIZ (2.14) 得 出 的 P (i | c) 。 去 偏见 化 前 ， 有 歧义 实体 的 P (i | c) 被 过 高 估计 ， 比 
如 “Washington”。 去 偏见 化 后 ， 其 数值 明显 降低 。 相 比 之 下 ， 实 体 “Bush” 昌 与 两 个 总 统 相关 ， 但 都 对 应 president 这 个 概 
念 ， 因 而 应 在 president 这 个 概念 上 得 到 较 高 得 分 。 通 过 观察 ， 去 偏见 化 的 结果 符合 这 一 原则 ， 比 如 说 “George 
Washington” 和 “Bush” 的 P (i| c) 分 数 都 比 “Washington” 的 要 高 。 


表 2-4 A (243) fe X, (2.14) PHP (i| c) 


实体 名 X (2. 14) 
George Washington 0. 0060 
Washington 0. 0059 

0. 0230 


Bush 


Feo - HEA T ze ASIDE presidentix 4 BEBE PERRA EHA. zEHRHIAIUBJA ES presidentBS/mttETEHER EB 
有 不 同 程度 的 降低 。 这 是 由 于 在 去 偏见 化 前 ，“Washington” 的 P (i| c) 被 高 估 ， 但 其 还 可 能 属于 state 这 个 概念 ， 这 会 导致 


与 state 相 关 的 属性 在 president 上 也 获得 较 高 得 分 。 


表 2-5 ”President 概 念 下 两 种 方法 获取 的 属性 排名 的 比较 


Is 性 原生 方法 去 仿 见 化 方法 


Mayor bat 
Citizens 13 
Population 15 
County 39 
Streets 105 


234 ”典型 度 聚 合 


本 节 前 面部 分 讨论 了 如 何 从 CB 网 页 文本 列表 中 计算 P (alc) ， 以 及 如 何 从 IB 的 三 个 列表 (网 页 文本 、 搜 索 日 志和 知识 库 ) 
中 计算 该 值 。 我 们 将 这 四 个 得 分 分 别 标记 为 PCe (alc) . Pig (alc) 、PaeB (alc) 和 Pkp (alc). 


要 聚合 这 些 得 分 并 不 是 一 项 简单 的 工作 ， 不 同 的 分 数 来 源 对 不 同 的 概念 有 着 互补 的 优势 。 对 于 包含 很 多 有 层 义 的 实体 的 概 


聚合 这 些 得 分 


念 ，1B 获 取 的 得 分 置信 和 度 较 低 。 比 如 ， 概 念 wine 中 的 很 多 实体 具有 歧义 , 像 “Bordeaux” 和 “Champagne” 可 以 表示 city 的 
名 字 ， 从 而 具有 city 相 关 的 属性 ， 如 mayor。 在 此 例 中 ，1B 获 取 的 得 分 置信 和 度 较 低 。 然 而 在 其 他 情况 下 ， 当 概念 可 被 扩展 为 大 量 


无 上 疏 义 的 实体 时 ，1B 给 出 的 得 分 则 十 分 可 靠 。 


这 些 观 察 表 明 单 数据 源 不 可 能 为 所 有 概念 给 出 可 靠 的 得 分 ， 因 而 应 将 不 同 来 源 的 得 分 聚合 。 我 们 希望 算法 能 够 基于 概念 特征 
目 动 为 得 分 调整 权重 ， 从 而 为 所 有 的 概念 给 出 可 靠 的 得 分 。 同 现 有 的 方法 不 同 ， 这 一 新 的 算法 框架 可 被 应 用 于 大 量 概念 之 上 。 


更 为 正式 地 ，P (a | c) 的 计算 可 被 转化 为 : 
F (a lc) — wcsP cela lc) twpP pla lc) 
+ won P os (alo) twxpP xp Ca lc) (Ze 15) 


目标 被 转化 为 学 习 某 一 概念 的 相关 权重 。 


XER KARZAI Ranking SVM 方法 。 请 万 法 为 一 种 惠 见 的 Pairwise 排 序 算 法 ， 同 回归 算法 相 比 ， 其 优势 在 于 训 
练 数据 不 需要 具备 准确 的 典型 度 得 分 标签 。 这 符合 问题 的 需求 : 虽然 不 能 得 到 某 一 属性 (比如 population) 的 绝对 得 分 ， 但 可 
以 陈述 population 比 picture 更 典型 这 一 事实 。 通 过 收集 这 样 的 成 对 比较 数据 作为 训练 数据 , 陈 (2.15) 中 的 权重 可 被 训练 得 
到 . 


更 为 正式 地 阐述 ， 来 源 M 的 权重 wM 为 / v 的 线性 组 合 ， 其 中 特征 为 实体 i 的 歧义 度 或 异 式 的 统计 显著 性 。 


A 
.fm (ave Mod Bridging Score: Bridging Scorel! | 通过 实体 是 否 属 于 不 同 概念 来 度量 它 的 歧义 度 。 


1 YSIS: ps) 


BridgingScore(i) = 2; 2P Cc, |i) P Cc, 


(2. 16) 


直观 上 说 ， 这 一 分 数 在 包含 歧义 的 实体 上 较 低 ， 如 “Washington”。 实 验 表明 ，Bridging Score 的 一 种 变换 Mod 
Bridging Score 更 为 有 效 。 


EY (avgP (c | i) ) : 当 实 体 属 于 很 多 不 同 的 概念 时 ，P (cli) 的 值 较 低 ， 因 而 它 也 可 以 作为 实体 歧义 度 的 度量 
Nl (>) (frequencyM (a) ) /#AttributeM) : 当 平 均 每 属性 的 属性 频率 较 低 时 ， 统 计 显 著 性 较 低 。 

4 
.Jm (>> (frequencyM (a) ) /ZInstanceP) : 当 平 均 每 实体 的 属性 频率 较 低 时 ， 统 计 显 著 性 较 低 。 


-Ê M (#AttributeM/#InstanceP) : 当 概念 中 实体 的 平均 属性 数 较 低 时 ， 对 该 概念 的 特征 提取 有 效 性 较 低 。 


WM 一 Wy T uU d M 
更 为 正式 地 ，wM 可 被 表示 为 五 个 特征 的 线性 合并 ~ 。 式 (2.15) 可 被 扩展 为 下 式 。 


P(alc)=wesP cpl(alc) +... wi fepPcplalo)+ 
Wer uta ley... Wit wr palot 
wosP os (a lc) +... tweapfowPoplalce)+ 
U kp P gg Ca e) ees "ERU kn f KBP kp (a ic) 
(2.17) 


可 见 ， 这 是 一 系列 元 素 的 线性 变换 。 线 性 核 函 数 的 Ranking SVM 算法 可 被 用 来 学 习 参数 。 同 已 有 的 方法 不 同 ， 上 面 提 出 的 
万 法 不 需要 窗 蔓 所 有 概念 的 训练 数据 。 


[1] Onuma K, Tong H, Faloutsos C.TANGENT: A Novel, ' Surprise me , Recommendation Algorithm [C] .Proceedings of The 


15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2009: 657-666. 


2.3.5” 同 义 属性 集合 


将 概念 和 属性 的 关系 量化 后 ， 我 们 得 到 一 系列 概念 的 属性 。 由 于 这 些 属性 从 网 站 获取 ， 人 们 可 能 会 使 用 不 同 的 词 来 表示 相同 


的 侣 义 ， 比 如 mission 和 goal 都 表示 目的 。 因 而 ， 另 一 项 重要 工作 为 将 同 义 属性 分 组 。 和 大 不 进行 这 项 工作 ， 相 同意 义 的 属性 会 被 
Sy HUP E, 
本 章 方法 借助 Wikipedia[ 找 寻 同 义 属性 ， 具 体 采用 如 下 方式 : 
- Wikipedia 重 定向 : 一 些 Wikipedia 链 接 没 有 目 己 的 页 面 ， 访 问 这 些 链接 会 被 重 定 向 到 相同 主题 的 其 他 文章 。 下 文 使 用 


X y RI * 定向 o 


Wikipedia 内 部 链接 : Wikepedia 的 内 部 链接 被 表示 为 L [Title | Surface Name] ] o # Y Surface Name 为 当前 文本 ，Tite 为 链 


使 用 这 些 天 系 对 可 以 链接 同 义 属性 。 所 有 相连 的 属性 可 被 视 作 一 个 属性 聚 类 。 在 一 个 聚 类 内 ， 频 率 最 高 的 属性 被 当 作 该 属性 
聚 类 的 代表 属性 。 


[1] Lee T, Wang Z, Wang H, et al. Web Scale Taxonomy Cleansing [J] .Proceedings of the Vidb Endowment, 2011, 4 (12) : 1295- 


1306. 


24 相关 人 研究 


虽然 概念 的 属性 提取 被 广泛 研究 ， 现 有 的 工作 没有 侧重 于 典型 度 得 分 和 概念 数量 的 扩展 性 。 本 章 方 法 创新 性 地 通过 对 属性 典 
型 度 的 严谨 分 析 和 多 重 数据 来 源 ， 为 大 量 的 概念 提取 属性 。 


许多 现 有 工作 LJ 人 依赖 于 种 子 属性 来 鉴别 提取 模式 以 获得 较 多 属性 。 这 些 工作 也 尝试 了 从 网 页 文本 四 、 搜 索 日 志 Pl， 以 及 
包括 网 页 表格 、 列 表 和 html 标 签 在 内 的 结构 化 数据 [oj 中 获取 属性 。 然 而 ， 它 们 没有 将 多 个 来 源 的 属性 提取 融合 。 


不 依赖 于 种 子 属性 的 提取 方法 L/j 通 常 只 使 用 |B 模 式 ， 从 搜索 日 志和 网 页 文本 提取 属性 。 然 而 ， 依 赖 于 单一 数据 源 的 方法 在 某 
些 概念 上 (如 wine 和 credit card) 表现 很 差 。 


最 新 的 一 些 方法 [81 考虑 了 在 属性 提取 中 将 多 个 数据 源 的 结果 合并 。Pasca 等 上 [10 使 用 搜索 日 志和 查询 会 话 来 提取 属性 。 参 
考 文献 [82] 则 合并 了 多 个 结构 化 的 数据 源 ， 如 网 页 表格 、 列 表 、DBpedia 和 Wikipedia。 然 而 ， 这 些 方 法 没有 涉及 计算 概率 得 


分 并 将 多 数据 源 的 得 分 聚合 。 


一 些 不 包含 打分 的 属性 提取 方法 使 用 了 词性 标注 (11， 基 于 随机 游 走 的 标签 扩散 [1 半 ， 通 过 网 页 图 表 改 进 实体 模式 (13。 相 比 
之 下 ， 本 章 的 方法 用 轻 量 级 的 模式 提取 代替 了 词性 标注 ， 从 而 解决 了 拓展 性 和 数据 稀疏 问题 。 本 章 方 法 的 另 一 显著 特点 在 于 从 多 
数据 源 量化 属性 的 典型 度 。 


基于 网 页 表格 的 方法 14 量化 了 属性 的 联合 概率 ， 可 以 给 出 相关 属性 。 而 本 章 方法 的 区 别 在 于 强调 了 实体 的 歧义 性 ， 从 而 得 
到 健全 的 属性 典型 度 得 分 。 另 一 个 区 别 在 于 本 章 方法 采用 learning-to-rank 的 手段 来 获取 得 分 ， 从 而 避免 了 对 人 工 标注 的 依赖 。 


非常 依赖 网 页 表格 的 方法 !1>Jl10| 可 提取 带 有 数值 的 属性 。 然 而 大 多 属性 不 会 被 以 数值 描述 ， 如 history of country. Alt, 
这 些 方法 不 适用 于 提取 大 范围 的 典型 属性 。 


[1] Pasca M.Organizing and Searching The World Wide Web of Facts step two: Harnessing The Wisdom of The 


Crowds | C] .Proceedings of The 16th International Conference on World Wide Web.ACM, 2007: 101-110. 

[2] Ravi S, Pasca M.Using Structured Text for Large-scale Attribute Extraction | C] .Proceedings of the 17th ACM Conference on 
Information and Knowledge Management. ACM, 2008: 1183-1192. 

[3] Bellare K, Talukdar P P, Kumaran G, et al.Lightly-Supervised Attribute Extraction |J] .University of Massachusetts-Amherst, 2007. 
[4] Bellare K, Talukdar P P, Kumaran G, et al.Lightly-Supervised Attribute Extraction |J] .University of Massachusetts-Amherst, 2007. 


[5] Pasca M.Organizing and Searching The World Wide Web of Facts 
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[6] Ravi S, Pasca M.Using Structured Text for Large-scale Attribute Extraction | C] .Proceedings of the 17th ACM Conference on 
Information and Knowledge Management. ACM, 2008: 1183-1192. 
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The Sixteenth ACM Conference on Information and Knowledge Management. ACM, 2007: 485-494. 

[8] Kopliku A, Boughanem M, Pinel-Sauvagnat K.Towards A Framework for Attribute Retrieval LC] .Proceedings of The 20th ACM 
International Conference on Information and Knowledge Management. ACM, 2011: 515-524. 
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Queries [C] .Eurtopean Conference on Information Retrieval, 2010: 62-74. 
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Queries [C] .European Conference on Information Retrieval, 2010: 62-74. 
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Tables [C] .Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. ACM, 2012: 97-108. 
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义 性 ， 并 与 基于 概念 的 模式 聚合 。 这 项 工作 创新 地 将 两 种 模式 结合 在 一 起 ， 并 通过 多 重 数据 源 获 取 属 性 ,依靠 Pairwise 排 序 算法 
聚合 属性 得 分 。 忆 而 言 之 ， 本 工作 能 得 到 严谨 而 实用 的 属性 典型 度 得 分 ， 用 以 支持 上 层 短 文本 理解 推理 。 


Bm ”时 实体 概念 化 模型 


人 类 通过 将 对 象 映 射 到 适当 层次 的 类 别 中 理解 世界 。 这 一 过 程 往 往 是 目 动 的 、 洪 意识 的 ， 心 理学 家 和 语言 学 家 将 其 称 为 
BLC (基本 层次 概念 化 ) 。 然 而 ， 如 何 量化 基本 层次 类 别 仍然 是 一 个 开放 性 问题 。 最 近 ， 很 多 研究 工作 致力 于 从 Web 规 模 的 文本 
语料库 中 构建 语义 网 络 (如 第 2 章 所 述 ) ， 使 得 推导 BLC 计 算 方法 成 为 可 能 。 本 章 介 绍 了 一 种 基于 典型 性 和 PMI 的 BLC 方 法 ， 通 
过 与 已 有 方法 比较 ， 理 解 这 种 方法 的 本 质 ， 并 用 大 量 的 实验 证 明了 其 有 效 性 。 


31 引言 


人 类 通过 将 对 象 映射 到 概念 中 理解 世界 。 一 个 对 象 所 属 的 概念 能 构成 一 组 从 最 抽象 的 到 最 具体 的 有 层级 结构 的 类 别 !'|， 并 且 
不 同 层次 的 类 别 有 不 同 的 属性 ， 反 映 了 不 同 层次 的 抽象 。 


[1] Murphy G.The Big Book of Concepts | M] .MIT press, 2004. 


3.1.1 基本 层次 类 别 


人 们 通常 把 一 个 对 象 映 射 到 适当 的 类 别 ， 并 且 认 为 这 个 对 象 与 该 类 别 中 的 其 他 对 象 等 则 。 例 如 ， 一 个 人 会 说 我 有 一 栋 房 子 、 
一 辆 车 和 一 只 狗 ， 而 不 是 我 有 资产 、 车 辆 和 哺乳 动物 。 同 样 ， 当 有 人 看 到 iPhone 6， 最 有 可 能 想到 high end smartphone 或 
Apple’ s product， 而 不 是 item 或 popular cellular wireless network phone。 对 人 类 来 说 ， 这 一 分 类 过 程 常 常 是 自动 的 、 洪 
意识 的 ， 心 理学 家 将 这 一 过 程 称 为 BLC (Basic-level Categorization 或 Basic-level Conceptualization， 基 本 层次 类 别 化 或 基本 


层次 概念 化 ) 。 
BLC 通 过 很 少 的 认 知 就 能 提供 丰富 的 信息 !1。 当 一 个 人 获得 了 陌生 对 象 的 基本 层次 类 别 时 ， 如 果 把 对 象 与 类 别 的 已 知 属性 关 
联 起 来 ， 他 几乎 能 完全 理解 这 个 对 象 ” 人 类 能 通过 很 少 的 认 知 [< 做 到 这 一 点 的 事实 ， 推 动 了 研究 者 进一步 了 解 BLC。BLC 最 重要 
的 性 质 之 一 是 由 RoschB3 提 出 的 。 表 3-1 总 结 了 他 们 的 发 现 ， 可 看 出 在 基本 层次 上 类 别 内 成 员 间 的 感知 相似 性 (perceived 
similarity) 最 大 ， 相 反 类 别 的 感知 相似 性 最 小 。 因 此 ， 一 个 对 象 的 基本 层次 类 别 通常 位 于 该 对 象 的 分 类 层级 结构 中 间 。 


表 3-1 类别 层 次 间 的 差异 


类 别 层 次 信息 量 ? 区 分 度 ? 
基本 层次 Yes Yes 
下 级 层次 Yes No 


例如 ， 考 虑 词汇 Microsoft， 可 以 映射 到 很 多 概念 中 ， 如 company、large company, Redmond IT giant 等 。 仔 细 看 看 下 
面 三 个 概念 : 


1) company 


2) software company 
3) largest OS vendor 


第 1 个 和 第 3 个 概念 与 Microsoft 高 度 相 关 ， 当 提 到 Microsoft 会 想到 它 是 company， 当 提 到 largest OS vendor 会 想到 
Microsoft， 但 两 者 对 Microsoft 来 说 都 不 是 合适 的 基本 层次 概念 。 为 了 说 明 这 一 点 ， 假 设想 找 一 些 与 Microsoft 相 似 的 对 象 ， 在 
company 的 实体 中 ， 可 能 会 友 现 一 些 与 Microsoft 没 有 太 多 相似 性 的 对 象 ， 如 McDonald” s 和 ExxonMobil。 在 largest OS 
vendor 的 实体 中 也 未 必 能 找到 合理 的 对 象 (因为 Microsoft 有 可 能 是 其 唯一 包 合 的 对 象 ) 。 另 一 方面 ， 在 software company 的 
实体 中 可 能 会 友 现 与 Microsoft 更 相似 的 对 象 ， 如 Oracle、Adobe、1BM。 因 此 ， 对 于 Microsoft，software company 是 更 合 
适 的 基本 层次 概念 ， 即 software company 的 属性 更 容易 应 用 于 Microsoft， 这 也 是 为 什么 通过 software company 能 找到 许多 
与 Microsoft 相 似 的 对 象 。 


不 幸 的 是 ， 昌 然 在 这 一 课题 上 进行 了 很 多 研究 工作 ， 目 前 仍 没 有 一 个 清晰 的 公式 推断 给 定 对 象 的 基本 层次 类 别 。 换 句 话 说 ， 
仍然 不 知道 如 何 从 Microsoft 数 以 干 计 的 概念 中 挑选 出 software company。 心 理学 家 已 经 通过 对 被 试 者 的 词汇 联想 测试 来 推断 
可 能 是 基本 层次 类 别 负 的 概念 ， 但 这 种 办 法 不 能 扩展 。 另 外 ， 越 来 越 多 的 信息 检索 、 自 然 语言 理解 和 人 工 智 能 领域 中 的 应 用 需要 
用 到 BLC。 


[1] Murphy G.The Big Book of Concepts | M] .MIT press, 2004. 
2) 有 结果 表明 ， 三 岁 的 孩子 已 经 能 完全 掌握 基本 层次 概念 化 。 
[3] Rosch E, Mervis C, Gray W, et al.Basic Objects in Natural Categories [J] .Cognitive Psychology: Key Readings, 2004: 448. 


[4] Rosch E, Mervis C, Gray W, et al.Basic Objects in Natural Categories [J] .Cognitive Psychology: Key Readings, 2004: 448. 


3.1.2 ”应 用 


对 于 许多 应 用 ， 如 查询 理解 和 广告 丐 配 ， 找 到 一 个 对 象 的 基本 层次 类 别 至 关 重 要 。 以 下 两 个 现实 生活 中 的 应 用 展示 了 BLC 的 
重要 性 ( 见 图 3-1) 。 


Google | AbertEnan sm bing uy» — NM 


| Computer Scientist! 

s Lawrence "Larry" Page is an American computer scientist and internet 
i Theoretical Physicist! entrepreneur who cofounded Google Inc. with Sergey Brin, and is the 
sU ee corporation's current CEO. Page is the inventor of PageRank, Google's 
Albert Einstein was a German-born theoretical physicist and philosopher most well-known search ranking algorithm. As of November 2014, Page 
of science. He developed the general theory of relativity, one of the two leads a global organization that consists of 55.600 employees ope... + 
pillars of modern physics. Wikipedia en. wikipedia org 

a) Google 知 识 面板 b) Bing 知 识 面板 


图 3-1 BLC 应 用 的 一 个 实例 


- 知识 面板 (Knowledge panel) : 搜索 引擎 为 常见 实体 的 查询 展示 知识 面板 。 图 3-1a 是 搜索 Albetrt Einstein 时 Google 知 识 面 
板 的 内 容 ， 图 3-1b 是 搜索 Larry Page 时 Bing 知 识 面板 的 内 容 。 值 得 注意 的 是 ，Albett Einstein 被 标记 为 theotetical physicist, world 
famous Germanborn American physicist 或 physicist 相 比 ， 可 以 认为 这 是 一 个 描述 Albert Einstein “恰到好处 ”的 概念 。 然 而 ， 目 前 仍 
然 没有 很 好 的 推理 方法 来 推导 这 种 “恰到好处 ”的 概念 ， 图 3-1 中 所 展示 的 例子 仍然 是 人 工 编辑 的 结果 。 显 然 ， 这 种 人 工 编辑 的 
方法 无 法 规模 化 应 用 。 


广告 及 推荐 系统 : 在 许多 应 用 中 ， 给 定 一 个 实体 ， 需 要 推荐 相似 实体 。 例 如 ， 应 该 向 Samsung Galaxy S5 感 兴趣 的 用 户 推 荐 
HTC M8 或 iPhone 6， 而 不 是 SamsungLED TV。 众 所 周知 ， 一 个 实体 的 基本 层次 类 别 通常 包含 许多 相似 的 实体 。 在 这 个 例子 
中 ，popular smartphone 和 high end smartphone 的 实体 可 能 是 更 好 的 选择 。 因 此 ， 了 解 基本 层次 类 别 有 助 于 提供 恰当 的 推荐 。 目 前 ， 
好 的 广告 及 推荐 系统 通常 基于 点 击 日 志 中 的 记录 ， 但 点 击 日 志 并 不 总 是 可 用 的 ， 特 别 是 对 新 的 实体 而 言 。 


31.3 ”BLC 计 算 方 法 


类 似 上 述 应 用 的 发 展 推动 了 BLC 计 算 方 法 的 研究 。 显 然 ， 更 好 地 了 解 人 类 的 认 知 过 程 有 助 于 构建 能 够 理解 人 类 世界 的 机 器 。 


近年 来 ， 许 多 知识 库 几 外 3] 几 Dj] 开始 进行 文本 理解 等 任务 。 有 些 知识 库 定义 了 丰富 的 概念 空间 ， 并 提供 从 词汇 到 概念 空间 的 映 
射 。 然 而 ， 目 前 仍 没有 任何 机 制 能 够 确定 词汇 的 基本 层次 概念 ， 造 成 机 器 难以 “理解 ”词汇 ， 这 反 过 来 又 阻碍 了 这 些 知识 库 对 自 
7A 然 语 吾 言 理解 等 应 用 的 里 oA 


本 章 主要 研究 BLC 计 算 方法 。 根 据 已 有 研究 [oj， 可 以 认为 县 次 概念 位 于 分 类 层级 结构 的 中 间 。 换 句 话说 ， 基 
本 层次 概念 是 抽象 概念 (general concept) 与 具体 概念 (specific concept) 的 折 中 ， 也 是 分 类 准确 性 与 预测 能 力 的 折 中 。 据 
此 ， 本 章 将 介绍 一 种 基于 上 典型 性 和 和 PMI 的 BLC 方 法 ， 并 与 几 个 已 有 方法 ， 包 括 平均 往返 时 间 (commute time) ， 进 行 比较 以 了 
解 这 种 方法 的 本 质 ， 同 时 用 大 量 的 实验 证 明 其 有 效 性 。 


[1] Bollacker K, Evans C, Paritosh P, et al.Freebase: A  Collaboratively Created Graph Database for Structuring Human 
Knowledge LC] .Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. ACM, 2008: 1247-1250. 
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on World Wide Web. ACM, 2007: 697-706. 

[3] Etzioni O, Cafarella M, Downey D, et al.Web-scale Information Extraction in Knowitall (preliminary results) [C] .Proceedings of 
The 13th International Conference on World Wide Web. ACM, 2004: 100-110. 

4 Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding | C] .Proceedings of the 2012 ACM 
SIGMOD International Conference on Management of Data. ACM, 2012: 481-492. 

[5] Carlson A, Betteridge J, Kisiel B, et al. Toward An Architecture for Never-Ending Language Learning | C] .National Conference on 
Artificial Intelligence and the Eighteenth Innovative Applications of Artificial Intelligence Conference, 2010. 


[6] Rosch E, Mervis C, Gray W, et al.Basic Objects in Natural Categories [J] .Cognitive Psychology: Key Readings, 2004: 448. 


3.2 ”语义 网 络 


许多 知识 库 或 语义 网 络 为 了 各 种 各 样 的 应 用 而 被 建立 ， 包 括 词 汇 知识 库 (Lexcial knowledge bases) 和 百科 知识 库 
(Encyclopedia knowledge bases) 。 有 一 些 是 通过 专家 或 社区 的 努力 建成 的 ， 如 WordNetl1]、Wikipedial 人 站、CycB3 和 和 


Freebase 和 出。 其 他 一 些 知 识 库 或 语义 网 络 是 通过 数据 驱动 的 办 法 建成 的 ， 如 KnowltAlIPJ]、NELLel 和 Probasel/j。 因 为 在 数据 驱 
动 语义 网 络 中 ， 信 息 是 基于 用 户 对 自然 语言 的 实际 使 用 而 获得 的 ， 所 以 对 自然 语言 理解 尤其 有 用 。 具 体 来 说 ， 数 据 驱 动 语 义 网 络 
有 以 下 特点 : 


1) 与 人 为 构建 的 知识 库 相 比 ， 数 据 驱 动 语义 网 络 中 概念 的 粒度 更 细 。 例 如 ，Freebase 有 数 以 干 计 人 为 构建 的 概念 ， 而 
Probase 有 数 以 百 万 计 的 概念 (如 图 3-2 所 示 ) . 


400000 , 
countries 
i - - scheduling algorithms 
40000 Cities pharmaceutical companies political analysts 
aia aie saints _ ng lishing regulations 
* Nous rm: nonprofit organizations l inappropriate compensatory behaviors 
g none renewable energy technologies| | self-management strategies 
cere jena popular search engines sustainable design principles 
* 4000 duc oxic chemicals hydrocarbon liquids — 
E dance styles, modern scientific theories 
ancient Civilizations microeconomic concepts 
400 
40 L— O OO 
£02 KONG C2 2 2. CP 2 KP. 2 C2 PPP BP PP OPP c TT 
SSS ESOS SES SSS HOSTS COPS SERENE SEIS 
LO GS OY AD VLA Qr. FR QPS LAP Pr OS ASS ees eO OO 
SO ORS VAP GS OM, Weg PQS Oe, VOD RRQ AP BP POA BY PMS CS 
DG ORY aC SRO AN ow QA YA SO NADAL’. A S NPLONXS SUN S UNS AQ NT CR VUA oO SQ? 
PPP QAP aS e V, FD SS an ae Nes DY OES 0d, CN SA PASTAS We, TORO” To ZS XO S 
M SE RO E SED Org AS QA e LY o YALA SRM OH GPs S SRSA Sq. o 
> VDRO AOI RG SAGO PD DS ESN dura SOMOS ORO COND oO LO Bc 
POD oO S SAD RPA OY GERAD RO ye KY SAS OLN cu .% O N © o So ”oo 
SS Mn n OS LS. OON PS ANY ej AN SYP PSR PHOR QA RONG e OO SS Qro TFS 
OX Quo «DON A ANS 3 TKO UN SOWA Nis KO's eO WS XY NO a OO 
Or nS .人 AN QW OO S SUA S SA DVD APO OS OS IQ A SN d 
Y De DS Re X QM OQ oO N S en ae Y QAO SEND AS V o? 
QUAM QUA SS A UN SUEY A ^0 QUO QOO. TS ND RNY HOWL GH 
FY QAO qv S SONS S N x SA SC MSAN XS 
"od QV A SH e» SS 3 o P y QUO oh SS ^ EN NI > Qr S Y & 
Se Ne a SONG S V Vo ie WO SS os 
XY” 9 VAS xo © `O oS SD QUA X ES ORY C? 
^. O ~ o SO © e c. 3 Q 
© em ~“ g Q 
> 
Q 


图 3-2 ”Probase 概 念 分 布 


2) 数据 驱动 语义 网 络 中 的 信息 不 是 非 黑 即日 的 ， 而 是 与 各 种 权重 和 概 仔 有关， 如 上 典型 性 (对 一 个 概念 来 襄 某 个 实体 有 多 个 
Hh 


Bg 5) o 


本 章 关 注 基 本 层次 类 别 化 。 许 多 基本 层次 概念 ， 如 high end smartphone, software company, theoretical physicist 是 
细 粒 度 的 概念 ， 在 人 为 构建 的 知识 库 中 并 不 存在 。 并 且 ， 推 断 基 本 层次 概念 需要 与 项 识 有 关 的 统计 人 信息。 因此， 本草 选择 数据 驱 
动 知识 库 。 本 章 利用 Probasel9 提 供 细 粒度 的 概念 和 统计 信息 ， 方 法 同样 适用 于 其 他 符合 上 述 要 求 的 知识 库 。Probase 从 16.8 亿 
个 网 页 中 获得 ， 由 句子 中 提取 的 匹配 Hearst 模 式 忆 的 isA 关 系 组 成 。 例 如 ， 从 句子 "..presidents such as Obama.…” 中 ， 它 提 
取 到 “OoObama ”是 president 实 体 的 一 个 证 据 。Probase 的 核心 版 本 包含 3024814 个 概念 、6768623 个 实体 和 29625920 个 iSA 天 
系 。 
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3.3 ”基本 层次 类 别 化 


本 蔬 将 摘 述 BLC 计 算 方法 。 在 此 之 前 ， 先 介绍 两 个 钊 用 方法 ， 即 典型 性 和 PM1， 并 说 明 为 什么 两 者 都 不 足以 导出 基本 层次 类 
别 ， 基 于 对 这 些 方法 的 分 析 来 前 述 本 章 的 方法 ， 以 及 论述 为 什么 本 章 所 提 方法 更 好 。 


典型 性 是 衡量 对 象 及 其 概念 间 关 系 的 一 个 重要 指标 。 在 理想 情况 下 ， 或 者 对 真实 例子 中 抽取 的 一 般 数 据 来 说 ， 每 个 类 别 CHE 
念 ) 可 能 包含 一 个 或 多 个 典型 对 象 由 。 例 如 ， 给 定 概念 bird， 人 们 更 可 能 想到 robin 而 不 是 penguin， 尽 管 penguin 也 是 一 种 
bird。 同 样 ， 当 提 到 Obama， 人 们 更 可 能 想到 president 而 不 是 author， 尽 管 Obama 也 是 一 位 畅销 书 author。 


FAP (e | c) 表示 给 定 概念 c、 实 体 e 的 典型 性 ， 用 P (c | e) 表示 给 定 实 体 e、 概 念 c 的 典型 性 。 将 P (e | c) HIP (c | e) 称 
为 典型 性 。 对 于 上 述 例子 ， 有 P (robin | bird) >P (penguin | bird) 和 P (president | Obama) >P (author | Obama) 。 


如 何 计算 典型 性 是 一 个 有 趣 且 具有 挑战 性 的 问题 。Mervis 等 “发 现 仅仅 用 频率 并 不 能 预测 典型 性 。 例 如 ，chicken 是 一 种 
bird， 并 且 经 常 出 现在 日 常 交 谈 或 文本 中 。 但 一 些 很 少 遇 到 或 讨论 的 鸟 类 比 它 更 典型 ， 比 如 robin。 另 外 ， 一 个 对 象 被 认为 属于 
一 个 类 别 的 频率 也 可 用 于 衡量 其 典型 性 Sj。 例如 ， 利 用 Hearst 模 式 由 可 以 发 现 ， 在 语料库 中 chicken 作 为 bird 的 实体 有 130 次 ， 
而 robin 有 279 次 ， 符 合 robintbchicken 是 更 典型 的 bird。 基 于 以 上 观察 ， 从 概念 和 实体 的 共 现 次 数 导 出 典型 性 : 


nc +e) 


PGele)— yy Ge) 


n (c «€ ) 


(c |e) duce n Cc, e) 


(3. 1) 


HA, n (c, e) 表示 根据 Hearst 模 式 ， 概 念 c 和 实体 e 在 Web 文 档 中 的 共 现 次 数 。 
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3.3.2 ”将 典型 性 用 于 BLC 


先 将 典型 性 直接 用 于 BLC: 那么 给 定 实体 e， 最 大 化 P (c |e) 的 概念 c 有 多 大 可 能 是 e 的 基本 层次 概念 ? 或 者 ，c 有 多 大 可 能 
是 使 P(e | Cc) 最 大 化 的 概念 ? 

本 小 节 将 说 明 ， 这 种 方法 推导 不 出 适合 的 基本 层次 概念 。 回 到 3.1 节 中 所 提 的 Microsoft 的 例子 。 显 然 ，company 是 
Microsoft 非 常 典 型 的 概念 ， 也 就 是 说 ， 提 到 Microsoft 会 想到 它 是 一 个 company。 而 Microsoft 也 是 largest OS vendor 非 常 典 
型 的 实体 ， 也 就 是 说 ， 当 想到 largest OS vendor 可 能 是 在 谈论 Microsoft。 换 句 话 说 ， 当 e=Microsoft 时 ，c1=company 的 典 
型 性 P (c1 | e) 很 高 ，c3=largest OS vendor 的 典型 性 P (e | c3) 很 高 。 但 在 3.1 节 中 解释 了 这 两 个 概念 都 不 是 Microsoft 的 基 
ARES. SS CEI Rim: company 是 Microsoft 非 常 抽象 的 概念 ， 而 largest OS vendor 是 非常 具体 的 概念 。 这 两 
种 极 湛 有 以 下 特点 : 

. 针对 “将 实体 映射 到 正确 类 别 中 ”的 目标 ， 抽 象 概念 往往 会 最 大 化 准确 性 。 例 如 ， 将 任意 实体 映射 到 抽象 概念 如 item 或 
object 中 ， 它 可 能 永远 都 是 正确 的 。 

“ 针对 “做 出 正确 预测 ”的 目标 ， 具 体 概念 往往 具有 很 强大 的 预测 力 。 例 如 ， 与 company 相 比 ，largest OS vendor 对 Microsoft 
的 预测 更 可 信 。 

换 句 话说 ， 给 定 一 个 实体 ， 抽 象 概 念 可 能 是 正确 的 ， 但 不 能 区 分 不 同类 的 实体 。 而 有 具体 概念 保留 了 更 多 有 天 实体 的 有 用 信 
息 ， 但 覆盖 非常 有 限 。 两 者 折 中 才 是 希望 得 到 的 结果 ，。 


3.3.4 ”将 PMI 用 于 BLC 


PMI (Pointwise Mutual Information， 点 互信 息 ) 【是 衡量 两 项 间 关系 强度 的 一 个 重要 指标 。 考 虑 用 概念 c 和 实体 e 的 
PMI 导 出 基本 层次 概念 ， 即 将 c=argmaxcPMI1 (e, c) 当 作 e 的 基本 层次 概念 ，PMI1 (e, c) 定义 如 下 : 


a 


"B PCeP(G) NH 


PMICe,c) —1 


进一步 推导 出 : 


P(elc)Ple) 


PMI(e ,c) —log PEP) 
C 


=logP (elc) —logP (e) (3. 4) 


由 于 给 定 e，logP (e) 是 单数 ， 因 此 将 概念 按照 PMI 排 序 等 价 于 按 典 型 性 P (e| c) 排序 ， 即 PMI 等 价 于 典型 性 。 但 正如 
3.3.2 节 所 述 ， 典 型 性 不 能 导出 基本 层次 概念 。 


为 了 使 PMI 对 频率 不 那么 敏感 ， 同 时 更 容易 解释 ，Bouma 等 提出 了 NPMI (Normalized Pointwise Mutual 


Information， 归 一 化 点 互信 息 ) 。 概 念 c 和 实体 e 的 NPMIl 定 义 如 下 : 


PMI(e.c) logP (elc) —logP Ce) 


—logP(e.c) — —logPte oc) M 


NPMI(6e;,c)— 


可 以 看 出 ， 与 PMI 和 典型 性 类 似 ，NPMI 往 往 也 会 使 概念 过 于 抽象 或 过 于 具体 ， 确 切 地 说: 


. 当 P (e, c) 很 大 (接近 1) , dogP (e, c) 趋向 于 0， 因 此 P (e, c) 代表 了 NPMI， 和 导致 排名 最 高 的 基本 层次 概念 过 于 抽 


l 
: SP (e, c) 很 小 P (e, c) 改变 时 一 ogF (ce， 5) 改 变 很 少 ， 因 此 PMI 代 表 了 NPMI， 寻 致 排名 最 高 的 基本 层次 概念 过 于 具 


体 。 
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3.3.5 将 Rep (e, c) 用 于 BLC 


典型 性 和 PMI 都 不 能 导出 基本 层次 概念 。 根 据 已 有 研究 由 可 知 ， 基 本 层次 概念 既 不 是 抽象 的 也 不 是 具体 的 。 为 此 ， 做 一 个 直 
观 的 折 中 ， 定 义 评分 函数 Rep 如 下 : 


Reple,c)=P(cle). PCelc) (3. 6) 
给 定 实 体 e， 用 上 面 的 分 数 导出 基本 层次 概念: 
BlC(e)=argmaxRep(e,c) (3.7) 


直观 上 ， 给 定 实体 e， 上 述 等 式 试图 找 出 这 样 的 概念 c: @c 是 e 典 型 的 概念 ，@ 实 体 e 是 c 的 典型 实体 。 


此 外 ， 取 式 (3.6) 中 评分 函数 的 对 数 ， 可 以 得 到 |: 


Pe ye) 


Og P(e)Ple) EMG e) + logP Ce sc) (3. 8) 


log RepCe.c2—1 


事实 上 ， 这 与 PM12 相 对 应 ， 它 是 PMI 在 PMik 家 族 的 规范 形式 钻 。 提 出 PMI12 是 为 了 探讨 如 何 通 过 在 对 数 中 引入 P (e, c) 来 
优化 PM1， 它 规范 了 PMI 的 上 界 B]， 因 此 ，PMI2 能 削弱 极端 值 ， 鼓 励 位 于 分 类 中 间 的 概念 


从 另 一 个 角度 来 看 ， 基 本 层次 类 别 具 有 一 个 重要 性 质 : 一 个 实体 的 基本 层次 类 别 更 有 可 能 包含 该 实体 的 相似 实体 。 在 3.1 节 
的 Microsoft 例 子 中 ， 抽 和 象 概念 (company) 或 具体 概念 (largest OS vendor) 的 实体 中 ， 并 没有 与 Microsoft 相 似 的 实 
体 。 可 是 基本 层次 类 别 的 概念 (如 software company) 中 却 能 发 现 相 似 实体 。 根 据 这 一 性 质 能 得 出 一 个 图 上 遍历 方法 以 找到 基 
本 层次 类 别 。 接 下 来 本 小 节 将 阐述 图 上 遍历 方法 等 价 于 式 (3.7) 中 最 大 化 评分 函数 的 方法 。 

对 于 实体 e， 将 导出 其 基本 层次 类 别 的 过 程 看 作 在 寻找 与 e 距 离 最 短 的 概念 。 直 观 地 ， 从 结 点 e 开 始 遍历 ， 可 能 到 达 某 一 概 
念 ， 从 这 一 概念 开始 遍历 ， 很 有 可 能 又 走 回 e。 这 相当 于 给 定 结 点 ， 找 到 其 最 近 结 点 的 随机 游 走 问题 (如 图 3-3 所 示 ) 。 本 章 利 
用 平均 往返 时 间 负 计算 两 结 点 在 图 上 的 距离 。 平 均 往返 时 间 是 一 个 步 数 的 期 望 值 ， 从 结 点 ji 开始 随机 游 走 ， 通 过 结 点 j 一 次 ， 并 再 
次 返回 到 i 的 步 数 的 期 望 。 实 体 e 和 概念 c 的 平均 往返 时 间 为 : 


Time(e,c) = 2 (2b) X PiCtesc) 


k=] 


T | 
= > (25) X P, (esc) + » (2k) X P, Cesc) 


k=] k= T1 


， 
> >) (2k) X P.C c) 


k=] 


T 
+2(T +1) X A— >| P,(e,c)) (3. 9) 
k=] 


概念 3 


图 3-3 ”在 isA 关 系 网 络 上 的 随机 游 走 


其 中 Pk (e, c) 是 在 2k 步 内 从 e 走 到 c 再 走 回 e 的 概率 。 


因为 我 们 只 对 较 小 的 平均 往返 时 间 感 兴趣 ， 所 以 忽略 那些 平均 往返 时 间 大 于 辣 值 1 步 的 概念 。 如 果 限 制 随机 游 走 步 数 在 4 步 


以 内 ， 将 得 到 : 
Time (e,c)=2XP(cle)P(elc) +4X (1—Ptcle)PCelc)) 
—4—2XP (cle)PCelc)—4—2XRepCe,c) (3. 10) 


可 以 友 现 Time' (e, c) 与 式 (3.6) PINEDA EKZ. Clk, EENEI ASTA (3.7) 中 易于 计算 的 
简单 评分 方法 。 
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34 人 小结 


本 章 讨 论 了 BLC 计 算 方法 ， 提 出 了 基于 典型 性 和 PMI 的 BLC 方 法 ， 深 入 分 析 并 通过 与 其 他 万 法 对 比 理解 了 它 的 本 质 ， 并 通过 
大 量 的 实验 证 明了 它 的 有 效 性 。 


第 4 章 ” 基 于 概念 化 的 再 文 本 理解 


短文 本 概念 化 的 目标 是 把 短文 本 (如 搜索 引擎 中 的 查询 天 键 字 ) 所 包含 的 实体 映射 到 特定 知识 库 或 语义 网 络 所 定义 的 概念 
上 。 像 得 询 这 样 的 短文 本 通 哩 并 不 遵守 语法 规则 ， 并 且 没 有 足够 的 信息 来 进行 统计 推 新 。 然 而 ， 仍 然 有 一 些 可 用 的 信息 ， 比 如 动 
词 、 形 容 词 、 实 体 词 和 它们 的 属性 ， 这 些 词语 市 有 明显 的 语言 信号 ， 能 够 在 理解 查询 的 语义 时 提供 有 价值 的 线条 。 本 章 将 介绍 一 
种 基于 概念 化 的 查询 理解 万 法 ， 该 万 法 首先 从 大 量 的 网 络 语 料 中 挖掘 出 词语 之 间 的 各 种 关系 ， 并 利用 一 个 概率 性 的 知识 库 将 它们 
映射 到 相关 的 概念 上 。 最 后 利用 这 些 控 据 得 到 的 知识 ， 使 用 基于 随机 ; 游 走 的 迭代 算法， 将 查询 中 的 词语 概念 化 。 大 量 丰 富 的 实验 
以 及 与 相关 工作 的 比较 证 明了 该 方法 的 有 效 性 。 


本 章 关注 短文 本 理解 的 概念 化 问题 。 具 体 地 ， 以 一 个 搜索 引擎 中 的 查询 来 说 ， 概 念 化 就 是 要 推断 出 该 查询 所 包含 的 词 最 有 可 
能 对 应 的 概念 ， 如 查询 “watch harry potter”。 “harry potter” 可 以 指 各 种 概念 ， 包 括 book、movie 和 character 等 。 但 在 
该 查询 中 ， 它 最 有 可 能 对 应 的 概念 是 movie。 短 文本 概念 化 能 够 为 许多 应 用 提供 帮助 ， 包 括 短文 本 分 类 [1 、 主 题词 和 修饰 词 检 
测 !、Web 表 格 理解 、 查 询 任 务 的 识别 中 等 。 


这 个 问题 也 面临 许多 挑战 。 长 文本 通常 合 有 丰富 的 上 下 文 信息 ， 通 过 词法 和 语法 分 析 可 以 达到 较 好 的 消 收 目的 。 然 而 对 于 短 
文本 来 说 ， 由 于 缺乏 足够 的 信息 或 统计 信号 ， 语 法 解析 和 主题 模型 等 都 不 能 取得 恨 好 的 效果 。 为 了 解决 这 个 问题 束 必 须 : @ 通 过 
己 外 部 的 知识 库 相 结合 ， 从 输入 的 短文 本 中 获得 更 多 的 语言 信号 ， 以 及 @ 设 计 一 套 新 的 方法 来 更 好 地 体现 并 利用 这 些 信号 之 间 的 
相互 影响 ， 从 而 为 消 收 和 短文 本 理解 市 来 帮助 。 


- 从 输入 和 外 部 知识 网 络 中 获取 信号 。 尽 管 短文 本 通常 非常 稀 朴 、 有 歧义 并 且 有 很 多 的 嗓 声 ， 但 理解 它们 对 于 人 类 来 说 并 不 
困难 ， 然 而 对 于 机 器 来 说 却 并 不 简单 。 现 有 的 工作 大 多 使 用 基于 “ 词 袋 ” (Bagof wotrds) 的 方法 来 解析 文本 Dll ， 或 者 用 基于 统 
计 的 主题 模型 来 进行 语义 消 歧 | 1。 但 是 短文 本 能 够 提供 的 信息 非常 少 ， 以 至 于 基于 词 袋 的 方法 和 基于 共 现 的 统计 方法 往往 不 能 
捕捉 到 有 用 的 信号 。 例 如 ， 在 查询 “premiere Lincoln" P, “premier” X —4- € 4948-5, RA “Lincoln” ARE WIKI 
movie; 同样 ， 在 “watch harry potte” +, ERĄ “watch” hEm, RTZ “harry potter” 指 的 是 movie 或 DVD， 而 不 是 
book。 但 是 ， 这 些 关 于 词汇 的 知识 (B]e “watch” 的 对 象 通常 是 movie) 并 没有 在 短文 本 中 明确 表示 出 来 ， 因 此 需要 借助 外 部 知 
识 网 络 来 补充 这 些 知 识 。 


: 为 短文 本 理解 构建 一 套 整体 模型 。 现 有 的 自然 语言 处 理 技术 通常 采用 多 层次 的 模型 ， 如 首先 分 词 并 标注 词性 ， 然 后 再 进行 
语法 解析 ， 接 着 再 进行 实体 消 歧 等 。 在 这 种 模型 中 ， 文 本 中 包含 的 信号 是 顺 着 执行 过 程 逐 层 传递 的 ， 并 且 只 能 从 底层 流动 到 上 
层 。 然 而 对 于 短文 本 来 说 ， 信 号 需要 能 够 反 向 传递 。 例 如 “watch harry potter” 这 个 查询 ， 我 们 能 够 判断 “watch” 是 一 个 动词 表 
示 “ 观 看 ， 而 不 是 一 个 实体 表示 “手表 ”， 这 是 因为 在 它 后 面 出 现 了 “harry potter ”这 个 实体 ; 反 过 来 我 们 确定 “hatty 
pottet” 在 这 里 指 的 是 movie 而 不 是 book， 是 因为 它 前 面 出 现 了 “watch” 这 个 动词 。 也 就 是 说 ， 不 单单 是 实体 解析 需要 词性 标注 
提供 的 信息 ， 反 过 来 词性 标注 实际 上 也 需要 实体 解析 提供 的 信息 ， 即 在 自然 语言 处 理 层次 模型 中 ， 信 号 不 仅 需 要 能 够 从 底层 传播 
到 高 层 ， 也 需要 从 高 层 再 传播 到 底层 。 近 期 的 一 些 工作 中 也 尝试 利用 词汇 知识 来 帮助 进行 短文 本 理解 ， 但 是 他 们 仍然 采用 的 是 层 
次 模型 : 分 词 、 词 性 检测 、 实 体 消 歧 逐 层 进行 。 本 章 所 提出 的 整体 化 模型 能 够 更 好 地 模拟 各 种 可 用 信号 在 各 个 层次 中 的 相互 影 
响 ， 从 而 能 得 到 更 准确 更 一 致 的 结果 。 


如 上 所 述 ， 本 章 通 过 与 外 部 知识 网 络 相 结 合 ， 从 短文 本 输入 中 获取 更 多 的 信号 。 而 这 里 所 指 的 知识 ， 并 不 是 百科 全 书 的 知 
识 ， 而 是 关于 语言 和 词汇 的 知识 。 这 些 知 识 对 理解 短文 本 来 说 非常 重要 ， 因 为 短文 本 中 通常 包含 很 多 非 实体 词 ， 如 作用 在 实体 上 
的 动词 、 修 饰 实 体 的 形容 词 和 实体 的 属性 等 。 例 如 查询 “most dangerous python in the world” 中 的 形容 
词 “dangerous”， 束 是 帮助 我 们 知道 “python” 是 snake 而 不 是 programming language 的 重要 信号 。 表 4-1 给 出 了 一 些 非 
实体 词 的 例子 。 


表 4-1 查询 所 包含 非 实体 词 实例 


查询 dE SC i 实体 


watch harry potter watch verb harry potter 


population of china population attribute china 


aia) 


图 4-1 查询 所 包含 非 实 体 词 比例 统计 


在 实际 搜索 引擎 的 搜索 关键 字 中 ， 非 实体 词 比例 非常 大 。 图 4-1 显 示 了 从 Bing 搜 索 日 志 中 统计 得 出 的 包含 非 实体 词 的 查询 所 
占 的 比例 。 在 某 些 情况 下 ， 这 些 非 实体 词 也 可 能 表示 的 是 实体 ， 如 查询 “watch and jewelry” “watch” 实际 上 表示 的 是 手 
表 ， 但 是 大 部 分 情况 下 ， 它 们 都 为 实体 消 层 提 供 了 很 多 有 用 信息 。 


本 章 解决 了 在 短文 本 理解 问题 中 的 以 下 两 大 挑战 : 


1) 本 章 建 立 了 一 个 关于 词汇 的 知识 库 ， 从 而 将 非 实 体 词 ， 包 括 动词 、 形 容 词 ， 以 及 实体 和 常见 属性 等 对 应 到 相关 的 概念 
上 。 例 如 ，“watch” 对 应 到 movie。 但 是 大 部 分 词语 都 有 多 种 词性 ， 如 “watch” 可 以 是 动词 “观看 ”， 也 可 以 是 名 词 “ 手 
表 ”， 从 而 对 应 到 不 同 的 概念 上 。 利 用 现 有 的 自然 语言 处 理工 具 进行 词性 标注 看 似 能 够 解决 这 个 问题 ， 但 是 事实 上 ， 由 于 缺乏 语 
法 规则 和 名 式 结构 ， 这 些 工 具 在 短文 本 上 并 不 能 取得 良好 的 效果 。 表 4-2 显 示 了 使 用 斯 坦 福 自然 语言 处 理工 具 [19j 对 短文 本 进行 
词性 标注 的 一 些 错误 结果 。 为 了 解决 这 一 挑战 ， 本 章 从 大 量 的 语 料 中 挖掘 出 词汇 之 间 的 共 现 关系 !' ]， 并 结合 大 规模 的 知识 库 ， 
构建 出 关于 词汇 的 知识 库 ， 来 辅助 词性 检测 。 


表 4-2 基于 自然 语言 处 理 技术 进行 短文 本 词性 标注 错误 实例 


短文 本 结果 
adidas watch adidas/ NNS watch/ VBP; 
orange apple pie orange/JJ apple/ NN pie/ NN 
jump weekly anime jump/ VB weekly/JJ anime/ NN 
weekly anime jump weekly/JJ anime/ NN jump/ NN 


2) PETS BARS EWES, KAMER. BOOK, SRAN, KAS, 
LAE IBJBSZRARFH— ESSERE, HEARE FEER A, SEEM ASCH BAER. 


接 下 来 ， 本 章 将 在 4.2 节 介绍 一 些 预 备 知 识 ， 并 简单 介绍 本 草 所 使 用 的 知识 库 ; 4.3 节 介绍 如 何 挖掘 非 实体 词 与 其 对 应 的 概念 
之 间 的 关系; 4.4 节 介绍 查询 理解 的 整体 化 模型 ;4.5 市 给 出 结论 。 
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42 ”预备 知识 


人 类 能 够 理解 像 短 文本 这 样 稀 哎 、 有 了 噪声 、 有 卜 义 的 输入 ， 是 因为 他 们 具有 关于 语言 的 知识 。 近 几 年 大 量 的 知识 库 涌 现 出 
来 , 如 DBpedial1j、Freebaselcj、Yagobj 等 。 但 这 些 知识 库 大 部 分 都 是 百科 全 书 式 的 ， 包 含 的 知识 是 诸如 “奥巴马 的 出 生日 期 
和 出 生地 ”这 样 一 些 基 本 事实 。 这 些 知 识 库 能 够 帮助 计算 机 给 出 一 个 问题 的 答案 ， 却 不 能 帮助 计算 机 理解 一 个 问题 。 而 理解 一 个 
问题 需要 关于 语言 的 知识 ， 如 “出 生日 期 和 出 生地 是 人 的 属性 ”， 关 于 语言 和 词汇 的 知识 库 就 是 为 此 而 建立 的 。 本 章 使 用 的 知识 
库 是 一 个 叫做 Probase 负 的 概率 性 知识 库 。 
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SIGMOD International Conference on Management of Data. ACM, 2012: 481-492. 


42.1 概念 


Probase 包 含 数 百 万 的 词 ， 每 个 词 表示 一 个 实体 、 一 个 概念 ， 或 者 两 者 都 是 。 同 时 ， 它 包含 两 种 最 主要 的 关系 ， 即 isA 关 系 
(如 Barack Obama isA President) 和 isAttributeOf 关 系 (population isAttributeOf country) 。isA 天 系 存在 于 实体 与 概念 
之 间 ， 可 以 通过 下 式 来 计算 一 个 实体 属于 某 个 概念 的 典型 性 : 


WCE wo? 


P* (c | a=— (4. 1) 


D>, nle,c) 


Eich, n (e, c) 是 在 语 料 中 “e isA c” 这 样 的 句子 出 现 的 频率 。 典 型 性 分 值 对 于 概念 化 而 言 非 党 重要。 


4.2.2 ”概念 聚 类 


Probase 包 含 数 百 万 个 概念 ， 一 个 实体 可 以 对 应 到 很 多 概念 。 例 如 ，“tiger” 这 个 实体 可 以 对 应 到 animal、exotic 
animal, jungle animal 等 概念 。 将 这 些 概念 全 部 归纳 为 一 个 animal 概 念 有 助 于 降 维 ， 从 而 减轻 计算 负担 ， 并 且 使 得 实体 乙 间 的 
相似 度 得 到 更 好 的 衡量 ， 进 而 为 推断 提供 便利 。 


因此 ， 本 章 采用 k-Medoids 聚 类 算法 L1 将 这 些 概念 聚 为 5000 个 艇 ， 如 animal、exotic animal, jungle animal 等 概念 全 部 
聚 为 一 个 animal 概 念 艇 。 相 应 地 ， 每 一 个 实体 被 映射 到 概念 艇 ， 而 不 是 原来 的 单个 概念 上 。 上 有 具体 来 涡 ， 一 个 实体 e 对 应 到 一 个 概 


念 艇 c 的 典型 度 定义 为 : 


Plc|e)= >) P*(c* le) (4. 2) 


C x c C 


为 简化 起 见 ， 本 章 后 续 使 用 “概念 ”这 一 术语 来 指 代 一 个 “概念 禾 ”。 


[1] Li P, Wang H, Zhu K Q, et al.Computing Term Similarity by Large Probabilistic Isa Knowledge | C] .Proceedings of The 22nd ACM 


International Conference on Information and Knowledge Management. ACM, 2013: 1401-1410. 


42.3 属性 


属性 是 短文 本 理解 中 至 关 重 要 的 组 成 部 分 。 本 书 第 2 章 详细 介绍 了 属性 的 抽取 与 概率 化 推导 。 简 而 言 之 ， 它 是 根据 如 下 的 模 
板 从 语 料 中 挖掘 出 来 的 : 


the <cattr> of(the/a/an)<term > (is/are/ was/ were/. ..) 


此 处 <attr> 表 示 待 抽取 的 属性 ，<term> 表 示 一 个 概念 (如 国家 ) 或 一 个 实体 (如 意大利 ) 。 例 如 ， 从 “the president of 
a Country” 可 以 得 到 “president” 是 Country 的 一 个 属性 。 相 似 地 ， 从 “the capital of China” FILA 
aj “capital” 是 “China” 的 一 个 属性 ， 然 后 因为 “China” 是 属于 Country 这 个 概念 的 ， 因 此 “capital” 也 是 Country 的 一 个 


属性 。Probase 用 Rank SVM 模型 对 由 概念 挖掘 到 的 属性 和 由 实体 挖 气 到 的 属性 结合 起 来 由， 即 用 一 个 函数 f 来 计算 每 一 个 属性 
的 典型 度 : 


P €c | a ) = f (n, * 3a Me, "a vr’ Me, "a ) (4. D 


其 中 ，”““”… 表 示 属性 a 与 一 个 概念 cx 以 上 述 句 式 出 现 的 频率 ，““ “表示 属性 3 与 一 个 实体 e 以 上 述 句 式 出 现 的 频率 ， 并 
目 e 是 属于 概念 c* 的 一 个 实体 。 通 过 把 一 个 概念 簇 中 的 所 有 概念 的 典型 度 聚集 起 来 ， 可 以 得 到 P (cla) ， 即 属性 3 对 于 概念 簇 c 的 
典型 度 。 


[1] Lee T, Wang Z, Wang H, et al.Attribute Extraction and Scoring: A Probabilistic Approach | C] .Proceedings of The 29th 


International Conference on Data Engineering, IEEE, 2013: 194-205. 


4.24 ”整体 框 染 和 符号 表示 


本 章 所 提出 的 整体 框架 由 两 部 分 组 成 : 第 一 部 分 是 离线 的 ， 负 责 挖掘 非 实体 词 与 概念 乙 间 的 对 应 关系 ; 第 二 个 部 分 是 在 线 
的 ， 负 责 推断 给 定 查询 所 对 应 的 概念 。 本 章 中 用 到 的 一 些 得 号 由 表 4-3 所 示 。 一 个 查询 包含 很 多 的 词 ， 如 动词 、 形 容 词 、 实 体 或 
者 实体 的 属性 ， 一 个 词 由 一 个 或 多 个 单词 组 成 ， 用 t 来 表示 。P (zit) 表示 词语 t 的 词性 分 布 ， 这 里 的 词性 z 表 示 t 是 一 个 动词 、 一 
个 形容 词 、 一 个 实体 或 者 一 个 属性 ，P (zit) 指明 了 词语 t 是 某 种 词性 的 概率 。 


RAO 本章 涉及 的 一 些 符号 表示 


符号 含义 
C HE A CR 2S) 
c* Probase 里 的 概念 个 体 
e 实体 
1 in) Ct 可 以 是 一 个 实体 词 或 非 实体 词 ) 
jn] HE 动词 、 形 容 词 、 属 性 、 实 体 中 的 一 种 
z 表示 词性 的 一 个 随机 变量 
P(z|20 in] : 的 词性 分 布 
PU |en) 给 定 概 念 c 和 词性 > 时 词 t 的 分 布 
P(e |t, z) 给 定 词 上 及 其 词性 > 时 的 概念 c 的 分 布 


4.3 ”挖掘 词 ; 关 系 


本 蔬 介 绍 离 续 的 部 分 ， 即 拍 样 从 语 料 中 挖掘 词汇 与 概念 乙 间 的 对 应 天 系 ， 挖 掘 得 到 的 这 些 知识 将 被 用 于 下 一 节 介 绍 的 和 迭 代 方 
法 。 


4.3.1 DA 


离线 部 分 要 挖掘 的 知识 可 以 形式 化 为 如 下 两 个 概率 分 布 : 


-P (zit) : 这 个 概率 表示 ， 给 定 一 个 词语 t， 它 的 词性 z (包括 动词 、 形 容 词 、 实 体 或 者 实体 的 属性 ) 出 现 的 概率 是 多 少 。 


例如 ， 当 “watch 在 一 段 语 料 中 出 现时 ， 它 有 0.8374 的 几率 是 动词 ，P (verb|watch) =0.8374。 


(P (cit, z) : 这 个 概率 表示 ， 当 一 个 词语 t 以 词性 ?2 出现 时， 它 与 概念 c 有 关 的 概率 是 多 少 。 例 如 ，P (movie|watch, verb) 


这 个 概率 指 的 是 当 watch 作 为 一 个 动词 出 现时 ， 它 与 movie 相 关 的 概率 。 


接 下 来 将 详细 曾 述 这 两 个 概率 是 如 何 获 得 的 。 


4.3.2 解析 
为 了 获得 上 述 概率 ， 首 先 使 用 目 然 语言 处 理工 具 对 网 络 上 数 十 亿 的 文档 进行 解析 。 具 体 来 说 ， 对 于 一 段 文本 ， 首 先 使 用 斯 坦 
蚀 的 目 然 语言 处 理工 具 Stanford Parser 对 其 进行 分 词 和 词性 标注 ， 进 而 从 中 提取 出 动词 和 形容 词 ， 再 根据 解析 出 的 依赖 天 系 ， 


与 Probase 相 结合 ， 找 出 这 些 动 词 和 形容 词 作用 的 对 象 ， 以 及 它们 在 Probase 中 对 应 的 实体 或 概念 。 具 体 细 节 下 文 再 做 详细 论 


4333 P (zit) 推导 


P (zlt) 可 以 通过 下 陈 得 到 : 


o nlt QE) 
© Qt) 


Bra, n (t, z) 表示 在 语 料 中 词语 tb 词性 z 出 现 的 次 数 ，n (t) 是 词语 t 出 现 的 总 次 数 。 表 4-4 显 示 了 一 些 计算 结果 。 


P (z | t) (4. 4) 


表 4-4 ”词性 分 布 实例 


T ean Tm 


4.3.4 P (dt, z) 推导 


由 于 词性 z 可 能 是 实体 、 属 性 、 动 词 或 形容 词 ， 下 面 将 分 别 对 这 几 种 情况 ) 


qn 
Hf 
d! 
cL 
GS 


情况 1: z 是 实体 


当 z 是 实体 时 , P (clt, z-instance) 就 退化 成 P (cle) ， 根 据 式 (4.2) 容易 得 到 : 
P(c | t,z —instance) =P (c | e) (A, 5) 


情况 2: z 是 属性 


当 z 是 属性 时 ，P (clt，z=attribute) 就 退化 成 P (cla) ， 根 据 式 (4.3) 容易 得 到 |: 
Pc | £,g —attribute) =P | a3) (4. 6) 


情况 3: z 是 动词 或 形容 词 


在 这 种 情况 下 ， 首 先 挖掘 出 动词 /形容 词 与 实体 之 间 的 天 系 ， 再 通过 实体 作为 桥梁 (如 图 4-2 所 示 ) ， 得 到 动词 /形容 词 和 概 
念 乙 间 的 联系 。 


N 


read edit download watch 


edit download watch 


图 4-2 ”以 实体 为 桥梁 构建 动词 与 概念 之 间 的 联系 


具体 而 言 ， 通 过 上 文 提 到 的 自然 语言 解析 步骤 ， 可 以 得 到 实体 、 属 性 、 动 词 和 形容 词 在 所 有 Web 网 页 中 的 共 现 次 数 。 为 了 
得 到 有 意义 的 共 现 ， 此 处 要 求 这 种 共 现 必 须 被 包含 在 一 个 依赖 关系 中 ， 而 不 仅仅 是 共同 出 现在 一 个 句子 里 。 例 如 ， 从 “the girl 
ate a big pear” 中 可 以 解析 出 两 个 依赖 天 系 (eatyerp, pearinstance) 和 (bigadjective，Pearinstance) 。 根 据 这 上 尝 共 现 数据 殉 
可 以 计算 出 P (elt, z) ， 即 当 词 语 t 以 词性 z 出 现时 ， 它 与 实体 e 的 共 现 概率 是 多 少 : 


Pte | ieee (4. 7) 


>. H s (e i 2) 


e * 


其 中 ，nz (e, t) 是 当 词 语 t 以 词性 z 出 现时 ， 它 与 实体 e 有 依赖 天 系 的 次 数 。 


然后 ， 通 过 将 实体 作为 桥梁 ， 残 可 以 得 到 词语 t 与 概念 的 天 系 。 具 体 来 说 ， 有 如 下 式 子 : 


P(c | t,verb) = TP (cse | t.verb) 


eC€c 

= >,P(c est verb) X P(e | t,verb) 
eC€c 

= > P(c le) X P(e | t,verb) (4. 8) 
e€c 


同 理 ， 可 以 得 到 P (clt, adjective) : 


P(c | t,adjective) = X P | e) X P(e | t.adjective) (4. 9) 


e€c 


其 中 P (cle) 由 式 (4.2) 给 出 ，P (elt, verb) 和 P (elt, adjective) 由 式 (4.7) 给 出 。 


4.3.5 “语义 网 络 


通过 以 上 步骤 ， 可 以 构建 一 个 语义 网 络 ， 其 中 顶点 代表 词 ， 包 括 实 体 、 概 念 、 属 性 、 动 词 、 形 容 词 。 图 4-3 显 示 了 语义 网 络 
中 围绕 “watch” 的 一 个 子 图 。 
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图 4-3 A Z&watch 7 LA 


语义 网 络 中 的 顶点 可 以 分 为 两 种 ， 一 种 是 概念 词 (LABISABJEGAIR) ， 另 一 种 是 非 概念 词 (以 椭圆 表示 ) 。 顶 点 之 间 包 含 三 
MAR: @@ 实 体 与 概念 之 间 的 jiSA 关 系 ，@ 动 词 /形容 词 /属性 与 概念 乙 间 的 天 联 天 系 ， 以 及 @ 概 念 乙 间 的 天 联 天 系 。 


接 下 来 本 节 将 分 两 种 情况 介绍 如 何 量化 这 些 关 系 ， 即 给 连接 它们 的 边 赋 权 重 。 第 一 种 情况 是 非 概念 词 和 概念 词 之 间 的 关系 ， 
FAP (clit) 表示 ， 对 应 上 文 提 到 的 前 两 种 关系 。 第 二 种 情况 ， 对 应 到 上 文 提 到 的 第 三 种 关系 ， 体 现 了 两 个 概念 之 间 的 相关 程度 ， 
如 product 和 company 就 是 两 个 紧密 联系 的 概念 ， 用 P (c1|c2) 表示 。 


“ 从 一 个 非 概念 词 (( 可 能 是 一 个 实体 、 属 性 、 动 词 或 形容 词 ) 指向 一 个 概念 < 的 概率 P (lt) 指定 为 : 
Plc|1)= > Plce | t.z) X Plz |b) (4. 10) 


. 从 一 个 概念 ci 指向 另 一 个 概念 cz 的 相关 度 概 率 P (cy cp) 可 以 根据 这 两 个 概念 所 包含 的 实体 的 共 现 次 数 导 出 : 


») n(e;»e;) 


€; E e} € c» 


24 24 ne, se.) 


ccc €; =e} E; Ec 


Pes | 642 (4. 11) 


其 中 n (ei, ej) 是 概念 c1 和 概念 c2 包 含 的 无 歧义 实体 的 共 现 次 数 ， 分 母 用 来 进行 归 一 化 。 事 实 上 ， 在 构建 语义 网 时 ， 对 于 
一 个 概念 c1， 只 需 考 虑 与 它 相 关 度 最 高 的 25 个 概念 ， 也 束 是 襄 ， 如 果 c2 并 不 在 前 25 个 与 c1 紧 密 关 联 的 概念 中 ， 则 设 
P (c4|co) =0。 


44 至 询 理解 


本 万 介绍 查询 概念 化 的 过 程 ， 即 给 定 一 个 查询 ， 对 其 包含 的 实体 词 ， 找 到 它 最 可 能 对 应 的 概念 。 例 如 ，“apple 
ipad” 中 “apple” 对 应 概念 company 或 brand， 而 非 fruit。 


4.4.1 “方法 慨 况 


如 图 4-3 所 示 ， 构 建 好 的 语义 网 络 由 概念 词 、 非 概念 词 和 它们 之 间 各 种 各 样 的 关系 组 成 ， 一 个 非 概念 词 与 一 组 概念 相关 。 对 
于 一 个 给 定 的 查询 q，q 中 包含 的 词 将 激活 语义 网 络 中 的 一 个 子 图 。 对 于 q 中 的 任 一 个 词 {， 将 其 概念 化 的 过 程 就 是 要 找到 
argmax p(c | t, q) 
TENIS pu ” ， 即 通过 q 提 供 的 上 下 文 环境 对 词语 t 可 能 对 应 的 概念 进行 排序 ， 从 而 找 出 最 有 可 能 的 概念 。 

考虑 “watch harry potter" 这 个 查询 ， 图 4-3 显 示 了 代表 这 一 查询 的 语义 子 图 。 在 这 里 ， “harry potter” 更 可 能 指 的 是 
movie 而 不 是 book， 因 为 movie 这 个 概念 与 “watch” 和 “harry potter” 都 有 关联 。 因 此 容易 想到 利用 随机 游 走 的 方法 来 找到 
这 个 最 可 能 的 概念 。 然 而 ， 传 统 的 随机 游 走 适用 于 较为 简单 的 网 络 ， 在 这 里 不 能 取得 良好 的 效果 ， 因 为 在 语义 图 中 顶点 和 边 都 是 
异 构 的 。 因 此 ， 本 章 提出 多 轮 随机 游 走 的 方法 ， 每 一 轮 随机 游 走 基于 现 有 的 知识 (包括 词性 分 布 ， 以 及 词语 到 概念 的 映射 概率 ) 
给 概念 赋 权 重 。 在 进行 完 一 轮 随机 游 走 之 后 ， 再 根据 概念 的 权重 更 新 现 有 的 知识 ， 即 重新 调整 词性 分 布 和 边 的 权重 ， 当 算法 收 全 
时 ， 即 可 得 到 概念 的 排序 结果 ， 从 而 找 出 最 可 能 的 概念 ， 同 时 词性 也 就 确定 了 。 


44.2 £X 


查询 概念 化 的 算法 包括 三 个 组 成 部 分 : 第 一 部 分 对 查询 进行 分 词 ， 第 二 部 分 利用 分 好 的 词 构 建 语义 子 图 ， 第 三 部 分 执行 迭代 
算法 找 出 各 个 词 最 可 能 对 应 的 概念 。 


首先 将 一 个 查询 分 为 一 组 词 ， 记 为 T={t1，t2，.…}。 把 Probase 作 为 词典 ， 可 以 识别 出 一 个 查询 中 出 现 的 词 ， 并 且 只 考虑 最 
长 子 串 ， 也 就是 说 ， 如 果 一 个 词 完 全 包含 在 男 一 个 词 中 ， 那 么 只 取 最 长 的 那个 子 串 作为 一 个 词 。 例 如 ，“angry bird” 可 以 解析 
J "angry bird” 一 个 词 ， 或 “angry” 与 “bird” 两 个 词 的 组 合 ， 但 显然 前 一 种 分 词 才 更 有 意义 。 在 某 些 情况 下 ， 得 到 的 词 会 
Aes, Ul “new york times square” 可 以 解析 为 “new york” F0 “times square" 的 组 合 ， 也 可 以 解析 成 “new york 
times” 与 “square” 的 组 合 ， 在 这 种 情况 下 ， 两 种 分 词 都 被 认为 是 有 效 的 ， 在 下 文 构建 语义 子 图 了 时， 两 种 分 词 产生 的 结果 都 将 
作为 项 点 包含 在 图 中 ， 而 后 续 使 用 迭代 算法 进行 概念 化 时 ， 最 佳 的 分 词 结果 将 会 被 算法 同时 选 出 。 另 外 ， 在 分 词 时 ,介词 、 连 词 


等 将 被 省 略 ， 虽 然 这 些 词 能 够 帮助 检测 依赖 关系 ， 但 并 不 是 本 章 关 注 的 重点 ， 相 关 研 究 可 以 参考 其 他 工作 [1], 
2. 构 建 语义 子 图 


经 过 上 一 步 又 得 到 的 词 可 以 对 应 到 上 一 节 构 建 好 的 语义 网 络 中 的 一 些 硕 点 ， 每 个 顶点 叉 与 一 些 概念 相关 联 ， 把 这 些 词 、 相 关 
概念 和 相互 之 间 的 边 从 整个 大 的 语义 网 络 中 抽取 出 来 ， 就 成 为 该 查询 对 应 的 语义 子 图 。 图 4-4 显 示 了 查询 "new york times 
square” 和 “cheap disney watch” 对 应 的 子 图 。 


0.02 


location 


一 一 > 实体 到 概念 
> 非 实 体 词 到 概念 


二 一 ”概念 到 概念 


0.03 | 1$ ! 
— db 
0.1 i 
a) “new york times square” b) “cheap disney watch” 


图 4-4 ”示例 查询 的 语义 网 子 图 
3. 随 机 游 走 算法 
本 章 使 用 多 轮 随 机 游 走 的 方法 来 为 每 一 个 词 找到 最 可 能 对 应 的 概念 ， 每 一 轮 随机 游 走 中 又 包含 名 干 次 欠 代 。 


在 第 一 轮 随机 游 走 中 ， 用 向 量 E 表 示 边 的 权重 ， 向 量 V"" 表 示 在 随机 游 走 的 第 n 次 迭代 时 顶点 的 权重 。 也 就 是 说 ， 在 一 轮 随 机 
游 走 的 铬 干 次 迭代 过 程 中 ， 边 的 权重 是 不 变 的 ， 而 顶点 的 权重 会 随 着 传播 而 改变 。 具 体 来 蜗 ， 边 的 权重 被 初始 化 为 : 
Pte |t) e:t >c 
Ele |= (4. 12) 


PGs | 64) gb, — Co 


其 中 P (clt) 和 P (colc1) 分 别 由 式 (4.10) 和 式 (4.11) (S3. 


顶点 的 权重 被 初始 化 为 : 


1/|T | v 是 一 个 词 
V°[v | = (4. 13) 
0 v 是 一 个 概念 


其 中 上 T| 是 该 查询 中 词 个 数 。 


每 一 轮 随机 游 走 采用 带 重启 的 随机 游 走 | 人 来 传播 权重 ， 具 体 为 : 


V" =(l—a)E XV"! +a V° (4.14) 


其 中 E' 是 将 向 量 E 写 为 矩阵 的 形式 ， 由 式 (4.12) 得 到 。 利 用 上 式 进 行 若干 次 迭代 (TARA Rem AR 
扣 和 关系 ， 因 此 在 实践 中 采用 两 次 达 代 束 够 了 ) 即 为 一 轮 随机 游 走 的 过 程 。 


元 成 一 轮 随 机 游 走时 ， 顶 点 的 权重 丈 变 为 一 个 新 的 向 量 。 例 如 ， 在 图 4-4b 中 ，product 这 个 顶点 的 权重 增加 了 。 基 于 这 个 亲 
到 的 知识 ， 束 可 以 对 之 前 做 出 的 词性 判断 和 概念 化 决策 进行 更 新 ， 具 体 来 说 ， 丈 是 依据 下 式 更 新 由 词 指向 概念 的 各 条 边 的 权 


qim 


m 


Ele|<— (1-8) XV"lc|+ 8 X Ele] e:t >c (4.15) 


直观 上 来 说 ， 从 图 4-4b 可 以 看 出 ， 由 于 product 和 “cheap” 以 及 “watch” 这 两 个 词 都 有 关联 ， 因 此 在 一 轮 随机 游 走 
中 ，product 这 个 顶点 的 权重 就 会 增加 ， 从 而 由 “watch” 到 product 的 边 就 变 得 比 “watch” 到 site 的 边 更 加 可 信 ， 于 是 需要 给 
前 者 增加 权重 ， 而 给 后 者 降低 权重 。 


调整 完 边 的 权重 之 后 ， 又 开始 新 一 轮 随 机 游 走 。 上 述 过 程 将 重复 若干 次 ， 直 到 算法 收敛 。 关 于 算法 收敛 性 ， 由 于 带 重启 的 随 
机 游 走 电 在 E' 是 常量 时 是 保证 收敛 的 向 ， 在 本 章 提出 的 算法 中 ，E 和 V 都 是 非 负 的 ， 并 且 Ec<Vn， 因 此 整个 算法 必然 收敛 。 


最 后 ， 当 算法 收敛 时 ， 即 可 通过 下 式 得 到 词 t 对 应 的 概念 : 


[1] Hua W, Wang Z, Wang H, et al.Short Text Understanding Through Lexical-semantic Analysis | C] .Proceedings of IEEE 31st 
International Conference on Data Engineering IEEE, 2015: 495-506. 

[2] Sun J, Qu H, Chakrabarti D, et al.Neighborhood Formation and Anomaly Detection in Bipartite Graphs LC] .Proceedings of IEEE 
15th International Conference on Data Mining IEEE, 2005: 8. 

[3] Fujiwara Y, Nakatsuji M, OnizukaM, et al.Fast and Exact Top-k Search for Random Walk with Restart [J] .Proceedings of The VLDB 
Badowmeat, 2012; 5 (5) = 42:455. 


[4] Strang G. Introduction to Linear Algebra |M] .Cambridge Publication, 2003. 


45 人 小结 


查询 理解 是 一 个 非常 具有 挑战 性 的 任务 。 本 章 构 建 了 一 个 词汇 语义 网 络 来 帮助 从 输入 的 短文 本 中 友 现 更 多 的 语义 信号 ， 并 提 
出 了 一 个 基于 图 的 迁 代 方 法 ,来 同时 解决 词性 标注 和 查询 概念 化 两 大 难题 。 通 过 实验 证 明 ， 该 方法 在 解决 查询 理解 问题 上 取得 了 
很 大 的 提高 。 


Som ”基于 概 仿 化 的 短文 本 主题 词 与 修饰 则 检测 


前 两 草 分 别提 出 了 针对 单 实体 以 及 短文 本 的 概念 化 模型 ， 这 些 模型 是 短文 本 理解 的 核心 。 在 短文 本 理解 中 ， 主 题词 与 修饰 词 
的 检测 是 一 个 非常 重要 的 问题 。 然 而 在 许多 情况 下 ， 短 文本 (如 搜索 引擎 中 的 查询 关键 字 等 ) 并 不 遵守 语法 规则 。 现 有 方法 通 单 
基于 粗 粒度 、 领 域 相 天， 以 及 需要 大 量 训练 数据 ， 本 章 将 介绍 一 种 基于 语义 的 短文 本 主题 词 与 修饰 词 检测 方法 。 此 方法 首先 从 搜 
索 日 志 中 获取 大 量 实体 级 别 的 “主题 则 -修饰 词 ” 对 ， 然 后 通过 概念 化 模型 将 这 些 实体 对 归纳 公 概 念 级 别 ， 最 后 通过 这 些 精细 且 
精确 的 市 权重 的 概念 模式 来 进行 主题 词 与 修饰 词 的 检测 。 大 量 丰 富 的 实验 证 明了 本 章 所 提 方法 的 有 效 性 。 


如 今 大 量 应 用 程序 需要 处 理 短文 本 ， 如 搜索 查询 、 广 告 关键 字 、 微 博 、 图 片 标注 等 。 对 于 机 器 而 言 ， 理 解 短文 本 是 一 个 巨大 
的 挑战 。 通 常情 况 下 ， 处 理 长 文本 可 以 使 用 基于 “ 词 袋 ”的 统计 方法 来 分 析 。 然 而 短文 本 并 不 包含 足够 的 信息 或 统计 信号 来 支 
持 这 种 分 析 方 法 。 此 外 ， 短 文本 通常 不 是 一 个 格式 良好 的 句子 ， 如 搜索 引擎 中 的 查询 关键 字 通 常 都 不 遵守 语法 规则 。 因 此 ， 基 于 
句子 结构 分 析 的 方法 外 也 会 失效 。 


本 章 将 重点 天 注 短文 本 中 的 主题 词 (head) 、 非 限定 性 修饰 词 与 限定 性 修饰 词 的 检测 问题 。 一 个 短文 本 通常 会 包 合 主 题词 
组 件 与 修饰 词组 件 。 其 中 ， 主 题词 组 件 表示 文本 的 意图 ， 而 修饰 词 限制 文本 意图 的 范围 。 以 搜索 查询 “popular iphone 5s 
smart cover” 为 例 ， 这 个 查询 包含 3 个 组 件 : “popular” , "iphone 5s” 和 “smart cover”。 显 然 ， 这 个 查询 的 意图 是 寻 
找 “smart cover”， 因 此 “smart cover” 是 主题 词组 件 。 而 “iphone 5S$” 和 “popular” 是 修饰 词组 件 。 不 过 ， 即 使 同 为 修 
饰 词 组 件 ， 它 们 的 重要 性 以 及 特性 也 不 是 完全 等 同 的 。 在 上 面 的 例子 中 ，“popular” 更 加 主观 ， 而 “iphone 5s” 以 一 种 更 加 
特定 的 方式 来 限定 整个 短语 的 查询 意图 。 对 于 一 个 搜索 查询 而 言 ， 可 以 丢掉 修饰 词 “popular” 而 不 会 改变 整个 查询 意图 ， 但 是 
WREE "iphone 5s” 则 会 导致 许多 不 相关 的 匹配 。 因 此 ， 定 义 类 似 “iphone 5s” 的 修饰 词 为 限定 性 修饰 词 ， 而 类 
(A "popular" 的 修饰 词 为 非 限定 性 修饰 词 或 纯 修 饰 词 。 显 然 ， 将 限定 性 修饰 词 和 非 限定 性 修饰 词 区 分 开 是 十 分 重要 的 。 


通常 而 言 ， 一 个 短文 本 包含 一 个 或 多 个 主题 词 、 零 个 或 多 个 修饰 词 。 通 过 分 析 一 个 星期 内 (从 2012 年 7 月 25 日 至 2012 年 7 月 
31 日 ) Bing 搜 索引 擎 的 搜索 日 志 ， 并 且 使 用 FreebaseB] 册 和 ProbaseD]l6l 作 为 词典 来 识别 每 个 查询 中 的 组 件 ， 如 图 5-1a 所 示 ， 

大 约 56% 的 查询 包含 两 个 或 多 于 两 个 的 组 件 (每 个 组 件 可 能 包含 多 个 单词 ， 即 组 件 可 能 是 一 个 词组 ) 。 如 果 考 虑 不 同 的 查询 数量 
(而 不 是 查询 次 数 ) ， 则 这 个 比例 会 上 升 至 90% (如 图 5-1b 所 示 ) 。 这 意味 着 检测 组 件 并 且 识 别 它们 的 角色 是 主题 词 、 非 限定 
性 修饰 词 或 是 限定 性 修饰 词 ， 对 于 理解 搜索 查询 至 关 重要 。 在 本 章 讨论 中 ， 所 使 用 的 例子 一 般 为 包含 一 个 主题 词 和 一 个 修饰 词 的 
查询 ， 但 是 本 章 所 提出 的 技术 能 够 处 理 所 有 情况 ， 即 多 个 主题 词 和 多 个 修饰 词 的 情况 。 


5 个 组 件 


4 个 组 件 2% >5 个 组 件 5 个 组 件 。 二 24 人 上 1E 
7% 1% 7%, 4” 10% 
3 个 组 件 
1770 4 个 组 
deed bea 2 个 组 件 
26% 
2 个 组 件 3 个 组 件 
29% 34% 


a) 搜索 次 数 b) 独立 查询 个 数 
图 5-1 搜索 查询 的 组 件数 量 统计 


短文 本 中 的 主题 词 、 非 限定 性 修饰 词 ， 以 及 限定 性 修饰 词 的 检测 问题 是 一 个 非常 具有 挑战 性 的 间 题 ， 具 体 包括 如 下 方面 的 挑 

战 : 
规则 来 进行 主题 词 与 修饰 词 检测 的 方法 无 法 使 用 。 

例如 ， 一 个 简单 的 语言 规则 是 在 名 词 词组 中 ， 最 后 一 个 词 通常 是 主题 词 ， 而 它 左边 的 词 是 修饰 词 。 然 而 ， 对 于 “popular smart 
covetiphone 5s” 而 言 ， 这 条 规则 是 无 效 的 。 还 有 其 他 一 些 基 于 统计 的 方法 ， 如 Bendersky 等 人 1 给 查询 中 的 每 个 词 赋 予 一 定 的 权 
重 ， 并 且 使 用 一 些 基于 统计 的 特征 训练 一 个 MRE (马尔 科 夫 随机 场 ) 模型 来 进行 主题 词 与 修饰 词 的 检测 。 但 是 此 方法 需要 一 个 大 
规模 的 标注 文本 集合 ， 更 重要 的 是 ， 他 们 的 方法 并 不 能 显 式 地 检测 主题 词 与 修饰 词 的 关系 。 

主题 词 、 非 限定 性 修饰 词 以 及 限定 性 修饰 词 的 检测 问题 需要 额外 的 知识 库 系 统 支撑 。 本 章 意 在 设计 一 种 通用 的 机 制 ， 而 不 
是 针对 某 个 特定 领域 的 机 制 来 检测 主题 词 与 修饰 词 。 一 些 现 有 工作 将 一 个 查询 分 类 到 某 一 个 预定 义 的 分 类 系统 
(taxonomy) 加 站 1 中 ， 然 后 将 所 属 类 别 判定 为 这 个 短语 的 主题 词 。 但 是 这 类 方法 的 有 效 性 有 局 限 性 ， 尤 其 在 其 履 盖 率 与 分 类 系 
统 的 粒度 上 。 例 如 ， 查 询 如 “job search” 和 “jobinterview” 同属 于 “job” 这 个 类 别 ,但 是 它们 的 查询 意图 却 是 完全 不 同 的 。 另 
外 有 一 些 工作 尝试 在 一 些 特定 领域 里 ， 将 查询 匹配 到 一 些 特定 模板 中 ， 从 而 推导 出 查询 意图 | NS, wep, BAHL Bike 
气 实 体 属 性 关系 (川中 ， 而 不 是 主题 词 与 修饰 词 关 系 。 它 们 的 性 能 取决 于 每 个 领域 的 实体 属性 种 子 对 。 对 比 而 言 ， 本 章 所 尝试 
解决 的 问题 范围 更 大 、 主 题词 与 修饰 词 的 关系 更 加 通用 。 


为 了 能 够 处 理 充满 噪声 的 、 具 有 睹 义 的、 入 琉 的 文本 输入 ， 需 要 如 下 额外 知识 系统 : 


1) 实体 级 别 主 题词 -修饰 词 知识 。 这 种 知识 能 够 让 机 器 知道 ， 当 “smart cover” 和 “iphone 5s” 同 时 出 现时 ， 不 管 它 们 
的 顺序 如 何 ，“smart cover" 都 是 主题 词 ， 而 “iphone 5s” 是 限定 性 修饰 词 。 


2) 概念 知识 。 机 器 需要 知道 “smart cover" 是 一 种 accessary， 而 “iphone 5s” 是 一 个 device。 


3) 概念 级 别 主题 词 -修饰 词 知识 。 机 器 需要 知道 当 accessary 和 device 同 时 出 现时 ，device 是 限定 性 修饰 词 ， 而 accessary 是 


本 章 所 提出 的 主题 词 与 修饰 词 检测 方法 由 在 导出 如 下 形式 的 概念 级 别 主题 词 - 修 饰 词 模 式 ,: 
(conceptrpead] » CONCE Pty modifier] » Score) (5. 1) 


以 下 为 一 个 可 能 的 实例 : 
(acceSSaryrhead] devlcermodifier ? Q. 9 ) 


在 这 个 例子 中 ， 它 表明 了 当 一 个 accessary 和 一 个 device 同 时 出 现在 一 个 短文 本 中 ，accessary 非 常 有 可 能 是 主题 词 ， 而 
device 是 修饰 词 (可 能 性 值 为 0.9) 。 有 了 这 些 知识 ， 对 于 任何 一 个 输入 ， 机 器 可 以 决定 在 这 个 知识 库 中 哪些 模式 能 够 匹配 输 
入 。 最 终 ， 使 用 这 些 模 式 和 它们 对 应 的 分 数值 ， 机 器 可 以 推导 出 输入 中 最 可 能 的 主题 词 与 修饰 词 。 


在 这 个 问题 中 有 3 个 主要 的 挑战 。 首 先 ， 构 建 的 这 个 知识 库 要 有 足够 大 的 获 蘑 率 ， 以 处 理 各 种 可 能 的 输入 。 例 如 ， 在 式 

(5.1) 中 ， 主 题词 概念 和 修饰 词 概念 是 在 一 个 预定 义 的 、 细 粒度 的 、 包 含 数 百 万 概念 的 概念 空间 中 。 其 次 ， 要 尽量 避免 导出 冲 
突 的 模式 。 即 要 尽量 避免 一 个 模式 定义 device 是 主题 词 ，accessary 是 修饰 词 ， 而 另外 一 个 模式 定义 相反 的 情况 。 然 而 ， 由 于 这 
些 模式 是 从 相互 独立 的 实体 中 导出 的 ， 因 此 这 种 不 一 致 性 不 可 完全 避免 。 因 此 需要 设计 一 个 精细 的 概念 化 过 程 来 减少 冲突 的 模 
式 。 最 后 ， 如 上 文 所 提 到 的 ,需要 将 限定 性 修饰 词 与 非 限定 性 修饰 词 区 分 开 ， 这 是 非常 重要 的 。 直 观 而 言 ， 一 些 主观 性 较 强 的 词 
iL, 如 “best”、 “top”、“well-known”、“popular” 是 非 限 定性 修饰 词 ( 即 纯 修饰 词 ) ， 它 们 经 常 是 在 所 有 领域 通用 
的 。 基 于 这 些 观察 ， 本 章 从 一 个 现 有 的 知识 库 中 构建 了 一 个 修饰 词 网 络 ， 并 使 用 中 介 性 核心 性 (betweenness centrality) 来 控 
气 纯 修饰 词 。 


本 草 所 提出 的 模型 是 首 个 针对 一 般 的 、 开 放 领 域 的 短文 本 进行 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 检测 的 无 监督 的 方 
法 。 本 章 所 摘 述 的 方法 已 经 在 Bing 搜 索引 敬 和 广告 系统 中 使 用 。 以 下 是 本 章 贡献 的 总 结 : 


“ 介绍 了 一 种 无 监督 的 、 开 放 领 域 的 针对 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 进行 检测 的 机 制 。 相 比 之 下 ， 现 有 工作 需 
要 大 量 标注 数据 ， 并 且 通 第 是 领域 相关 的 。 


- 构建 了 一 个 概念 模式 知识 库 ， 为 主题 词 -修饰 词 关 系 在 概念 级 别 进行 建 模 。 将 实体 级 别 的 主题 词 -修饰 词 关系 (如 “smatt 
cover 是 主题 词 而 “ iphone 5s” 是 修饰 词 ) 提升 至 概念 级 别 (如 accessoty 是 主题 词 而 device 是 修饰 词 ) 。 这 个 概念 模式 知识 库 具 


有 强大 的 概括 能 力 。 


- 这 种 针对 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 的 检测 机 制 是 轻 量 级 且 高 效 的 。 这 个 概念 模式 知识 库 的 规模 非常 小 ， 但 
是 具有 强大 的 概括 能 力 。 这 使 得 它 能 够 即时 处 理 上 百 万 的 开放 领域 短文 本 。 


本 章 组 织 如 下 : 5.2 节 拉 述 整体 框架 ; 5.3 节 寻找 非 限定 性 修饰 词 ，5.4 书 导出 概念 级 别 的 主题 辣 限定 性 修饰 词 模式 ，5.5 节 介 
绍 针对 短文 本 的 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 的 检测 机 制 ，5.6 节 介绍 相关 工作 ; 5.7 节 为 小 结 。 
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5.2 EMER 


图 5-2 摘 述 了 本 章 用 于 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 检测 的 整体 框 絮 。 它 包含 两 个 离线 组 件 ， 分 别 用 于 获得 非 限 
定性 修饰 词 和 主题 同 - 限 定性 修饰 词 概念 模式 ; 以 及 一 个 在 线 组 件 ， 通 过 使 用 这 些 离线 获得 的 知识 进行 在 线 主题 词 、 非 限定 性 修 
饰 同 与 限定 性 修饰 同 检 测 。 
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图 5-2 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 的 检测 框架 


如 上 文 所 述 ， 修 饰 词 被 分 为 两 类 : 限定 性 修饰 词 和 非 限定 性 修饰 词 (或 纯 修饰 词 ) 。 为 了 能 够 找到 那些 经 常 作为 纯 修 饰 词 的 
词汇 ， 构 建 了 一 个 修饰 词 网 络 。 例 如 ， 从 “large developed country” , "developed country" 和 “country” 中 ， 可 以 导 
出 可 能 的 修饰 词 “large” 和 “developed”。 在 这 个 网 络 中 ， 顶 点 表示 主题 词 概念 (4 “country” ) 或 者 修饰 词 

(如 “large” 和 “developed”) ， 边 表示 修饰 关系 。 纯 修饰 词 可 以 通过 图 论 中 一 种 被 称 为 中 介 性 核心 性 (betweenness 
centrality) 的 度量 方式 进行 检测 。 更 多 细节 会 在 5.3 节 中 给 出 。 


一 个 更 具有 挑战 性 的 任务 同时 也 是 本 章 的 主要 关注 点 是 在 概念 空间 中 识别 出 主题 词 -限定 性 修饰 词 模 式 。 首 先 获得 实体 级 别 
的 主题 词 -限定 性 修饰 词 对 如 (race game fhead]: Mac [modifie] ) ， 然 后 将 它们 概念 化 到 概念 级 别 ， 得 到 主题 词 限 定性 修饰 
词 模式 如 (game [head] ，computer [modifier] ) 。 这 个 过 程 的 细节 会 在 5.4 节 中 进行 介绍 。 

使 用 获得 的 知识 ， 可 以 进行 短文 本 中 的 主题 词 、 非 限定 性 修饰 词 与 限定 性 修饰 词 检测 。 首 先 识别 并 删除 其 中 的 纯 修饰 词 ， 然 


后 形成 主题 词 -修饰 词 候选 对 ， 最 后 通过 概念 化 将 这 些 候选 对 匹配 到 概念 级 别 的 主题 词 -修饰 词 模式 。 这 个 过 程 能 够 允许 机 器 识别 
出 一 些 乙 前 从 未 见 过 的 主题 词 -修饰 词 实体 对 。 更 多 细节 会 在 9.2 节 中 进行 讨论 。 


5.3. 3EBRXETEIE Trig 23 


本 节 摘 述 如 何 友 掘 那些 经 单 作为 非 限 定性 修饰 词 〈 纯 修饰 词 ) 的 词汇 。 如 上 文 所 述 ，“top Seattle hotels” 中 的 两 个 修饰 
词 是 不 同 的 ，“Seattle” 是 一 个 特定 的 限定 性 修饰 词 ， 而 “top” 是 一 个 主观 性 较 强 的 修饰 词 。 在 一 些 应 用 程序 中 ， 如 搜索 引 
和 擎 ， 非 限定 性 修饰 词 经 钊 被 忽略 。 此 外 ， 这 泽 非 限定 性 修饰 词 通 单 是 通用 的 并 且 适 用 于 各 个 领域 。 例 如 ，“top” 可 以 出 现 


{Œ "top movies" , “top books" $H “top hotels" rh, 


基于 主题 词 - 修 饰 词 的 原则 L111， 给 定 "large developed country” 和 “developed country”， 可 以 推导 出 “large” 是 一 


个 可 能 的 修饰 词 所 。 此 外 ， 观 察 到 左边 的 修饰 词 会 比 右边 的 修饰 词 更 像 是 一 个 非 限定 性 修饰 词 。 例 如 ， 人 们 常常 说 “cheap red 


shoe" , mg “red cheap shoe" , 


因此 ， 考 虑 使 用 大 量 短语 词汇 或 者 概念 来 挖掘 非 限 定性 修饰 词 。Probase 是 一 个 很 好 的 选择 ， 因 为 : @ 它 包含 了 270 万 个 概 
， 包 含 了 许多 长 尾 概念 如 “large developing country" ， 这 些 长 尾 概念 包含 了 许多 非 限定 性 修饰 词 ;@ 它 是 跨 领 域 的 。 


Gy 


整个 挖掘 过程 如 下 : 
1) 基于 上 述 观 察 构 建 修饰 词 网 络 。 
2) 在 修饰 词 网 络 中 计算 每 个 项 点 作为 非 限 定性 修饰 词 的 分 数 。 


我 们 使 用 一 个 例子 来 阐述 整个 非 限定 性 修饰 词 的 挖 所 过程。 考虑 图 5-3a 中 的 概念 层次 ， 它 是 关于 country 这 个 概念 领域 下 的 


层次 树 。 其 中 每 一 个 结 点 是 一 个 概念 ， 每 一 条 边 都 市 有 修饰 词 标注 ， 表 明 由 此 修饰 词 所 引申 出 的 概念 。 然 后 ， 将 图 5-3a 转 换 为 
图 5-3b。 在 这 个 过 程 中 ， 保 留 根 结 点 概念 不 变 ， 然 后 将 每 一 条 边 转 为 一 个 新 的 结 点 。 那 些 具 有 相同 标注 的 边 会 映射 到 同一 个 结 


点 上 。 这 个 新 的 网 络 称 为 “修饰 词 网 络 ” (modifier network) 。 通 过 这 样 的 转换 ， 基 于 概念 聚 类 构建 出 许多 修饰 词 网 络 。 
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图 5-3 ”挖掘 非 限 定性 修饰 词 


然后 在 这 些 修饰 词 网 络 中 ， 需 要 对 这 些 结 点 计算 其 作为 非 限定 性 修饰 词 的 可 能 性 分 数 。 根 据 定义 ， 如 果 一 个 词 是 非 限定 性 修 
饰 词 ， 那 么 它 总 是 非 限定 性 修饰 词 ， 与 它 的 上 下 文 无 关 。 相 比 之 下 ， 主 题词 和 限定 性 修饰 词 取决 于 它们 的 上 下 文 ， 这 意味 着 同一 
个 词 在 有 些 时 候 是 主题 词 ， 在 另 一 些 时 候 可 能 是 限定 性 修饰 词 。 因 此 ， 主 题词 和 限定 性 修饰 词 有 可 能 是 一 些 修饰 词 网 络 中 的 中 间 
顶点 ， 而 非 限定 性 修饰 词 则 通常 不 会 是 中 间 项 点 。 这 使 得 非 限定 性 修饰 词 有 较 低 的 核心 性 (centrality) 。 通 常 ， 度 (degree) 
和 中 介 性 (betweenness) 是 衡量 一 个 结 点 核心 性 的 方法 。 相 比 于 基于 度 的 方法 ， 中 介 性 核心 性 可 以 基于 途径 通过 性 ， 全 局 地 


衡量 一 个 结 点 的 核心 性。 因此 ， 本 草 使 用 中 介 性 核心 性 来 决定 一 个 修饰 词 是 不 是 一 个 非 限定 性 修饰 词 。 


关于 一 个 顶点 v 的 中 介 性 核心 性 定义 如 下 : 


(vu) 
g(v)= SV (5. 2) 


st Os 


其 中 ，ast 是 从 顶点 $ 到 顶点 t 的 最 短路 径 总 数 ， 而 ast (v) 是 这 些 路 径 中 通过 顶点 v 的 路 径 数 量 。 在 每 个 修饰 词 网 络 中 ， 基 于 


此 中 介 性 核心 性 再 进行 规 沁 化 : 


COLERA 
Ni iets oe LM (5. 3) 


max(g) — min(g) 


然后 将 所 有 修饰 词 网 络 进行 聚集 计算 ， 融 可 以 得 到 针对 一 个 词 t 的 纯 修 饰 词 分 数值 : 


PMS(t)= XNL(Cg G)) (5. 4) 


最 后 ， 为 所 有 修饰 词 网 络 中 的 每 一 个 词 都 计算 一 个 纯 修饰 词 分 数值 ， 然 后 将 它们 按照 此 分 数值 进行 排序 。 一 个 词 的 分 数值 越 
小 ， 那 么 这 个 词 越 有 可 能 是 一 个 非 限定 性 修饰 词 。 


[1] Hippisley A, Cheng D, Ahmad K.The Head-modifier Principle and Multilingual Term Extraction |J] .Natural Language 
Engineering, 2005, 11 (02) : 129-157. 
D] 但 是 这 个 也 并 不 是 完全 成 立 。 例 如 ， “hot dog 中 的 “hot 就 不 是 修饰 词 。 解 决 办 法 是 注意 到 “dog 属于 动物 这 个 概念 ， 


m “hotdog” 是 输入 “snack 24 “quick food” 这 些 概念 。 因 此 ， 整 个 非 限 定性 修饰 词 的 检测 会 限定 在 每 个 概念 聚 类 中 。 


5.4 ”限定 性 修饰 司 挖 据 


本 节 摘 述 如 何 友 掘 概念 级 别 的 主题 词 限定 性 修饰 词 模式 。 


5.4.1 Probase: 一 个 大 规模 的 1sA 知 识 库 


本 书 使 用 了 一 个 大 规模 的 isA 知 识 库 系统 Probaselljl2 来 概念 化 实体 级 别 的 主题 词 -修饰 词 对 到 概念 级 别 。 


Probase 是 一 个 包含 词组 的 大 规模 网 络 。 其 中 ， 一 个 词 可 以 是 实体 (如 “Barack Obama" ) ， 也 可 以 是 概念 (如 “USA 
President" ) 。 在 这 个 网 络 中 ， 还 有 许多 其 他 类 型 的 顶点 ， 包 括 属性 、 动 词 、 形 容 词 等 。 但 是 这 些 类 型 不 是 本 章 关 注 点 ， 所 以 
不 做 过 多 讨论 。 本 章 所 使 用 的 Probase 包 括 270 万 个 概念 和 4000 万 个 实体 。 因 此 Probase 提 供 了 一 个 巨大 的 概念 空间 ， 它 能 够 履 
盖世 界 上 各 种 概念 。 


Probase 中 的 词组 通过 各 种 关系 关联 起 来 。 本 章 主要 关注 其 中 的 isA 关 系 (虽然 isPropertyOf 关 系 对 于 概念 化 也 很 重要 ) 。 
isA 关 系 存 在 于 实体 和 概念 之 间 (如 “Barack Obama" isA "USA President" ) ， 或 子 概念 和 父 概念 之 间 (40 “USA 
President" isA "Celebrity" ) 。 用 e 表 示 一 个 实体 ，c 表 示 一 个 概念 ， 则 它们 的 天 联 程度 可 以 用 如 下 方式 进行 衡量 : 


n (e.c) nlesc) 
(e | c) = ————, (c | e) = ——— (5.5) 
PG |c n(c) Ple le n (e) " 


其 中 , n (e, c). n (c) 和 n (e) 分 别 表示 e 和 Cc 共 同 出 现 的 次 数 、< 单 独 出 现 的 次 数 和 e 单 独 出 现 的 次 数 。 


这 些 天 联 权重 有 如 下 的 直观 含义 。 概 率 值 P (elc) 表示 给 定 一 个 概念 c 时 ，e 有 多 么 典型 ; MP (cle) 表示 给 定 e 时 ，c 有 多 人 么 
典型 。 例 如 ， 仅 仅 知 道 “poodle” (HRA) 和 “pug” (哈巴 狗 ) 都 属于 狗 类 有 时 并 不 够 。 可 能 还 需要 知道 “poodle” 是 一 
种 比 “pug” 更 加 流行 的 狗 ， 即 当 人 们 谈论 起 狗 的 时 候 ， 听 众 更 容易 想起 “poodle” 的 形象 。 这 些 信 息 对 于 人 类 语言 理解 而 言 
是 至 关 重 要 的 。 在 Probase 中 ， 可 以 通过 P (poodleldog) >P (pug|dog) 来 进行 捕捉 。 


[1] Probase 的 数据 可 以 在 http://probase.msta.cn/dataset.aspx 下 载 。 
[2] Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding | C] .Proceedings of the 2012 ACM 


SIGMOD International Conference on Management of Data. ACM, 2012: 481-492. 


54.2 ”实体 级 别 十 题词 - 修 希 司 


为 了 能 够 在 概念 级 别 对 主题 词 -修饰 词 天 系 进行 建 模 ， 首 先 取 得 大 量 实体 级 别 的 主题 词 -修饰 词 关 系 。 虽 然 对 于 机 器 而 言 ， 它 
们 很 难 从 查询 “iphone 5s smart cover" gk "smart cover iphone 5s” 中 直接 识别 出 主题 词 和 修饰 词 ， 但 是 相同 的 查询 意图 会 
通过 其 他 形式 表达 出 来 ， 如 “smart cover for iphone 5s”。 在 这 种 形式 中 ， 很 显然 “smart cover” SRSA. Mates 
相关 的 证 据 ， 表 明 当 “smart cover” 和 “iphone 5s” 同 时 出 现时 ，“smart cover” 更 有 可 能 是 主题 词 ， 即 使 它们 之 间 并 没有 
使 用 介词 “for” 来 进行 连接 。 


由 此 可 见 ， 介 词 提供 了 一 个 发 现 主题 词 和 修饰 词 的 重要 角色 [lej。 通 过 评估 一 系列 的 介词 ， 最 终 挑 选 了 “for” 、 "of 
"with" . "in". "on", "at" 等 6 种 介词 来 帮助 发 现 主 题词 和 修饰 词 。 当 词 A 和 词 B (如 "AforB" , "AofB" , "A 
with B" ) 使 用 这 些 介词 连接 时 ， 通 常 词 A 是 主题 词 ， 词 B 是 限定 性 修饰 词 。 因 此 可 以 使 用 如 下 的 语法 模式 来 从 搜索 日 志 中 抽取 
tH (A, B) : 


{head | for | of | with | in | on | at | modifier} 


为 了 保证 抽取 正确 ，Probase 被 当成 一 个 字典 来 进行 词组 识别 ， 即 主题 词 和 修饰 词 必 须 是 Probase 中 的 词组 。 昌 然 Probase 
合 词 量 很 大 ， 但 显然 仍然 会 有 一 些 词 不 被 其 包含 。 不 过 这 并 不 是 一 个 大 问题 ， 因 为 最 终 目 标 是 寻找 到 概念 级 别 的 主题 词 限定 性 
修饰 词 模式 ， 而 Probase 已 经 提供 足够 多 的 实体 来 帮助 导出 这 些 概念 。 


[1] Hippisley A, Cheng D, Ahmad K.The Head-modifier Principle and Multilingual Term Extraction |J] .Natural Language 
Engineering, 2005, 11 (02) : 129-157. 
[2] Soderland S, Fisher D, Aseltine J, et al CRYSTAL: Inducing a Conceptual Dictionary [J] .International Joint Conference on Artifical 


Intelligence, 1995, 2 (3) . 


543 ”概念 级 别 主题 词 -修饰 记 


从 上 述 方法 中 获得 的 实体 级 别 的 主题 词 - 修 饰 词 关系 ， 可 以 进一步 导出 概念 级 别 的 关系 。 这 样 可 以 抽象 建 模 以 覆盖 更 多 实体 
级 别 的 关系 。 这 个 过 程 需要 依赖 概念 化 。 在 相关 工作 中 ， 上 下 文 依赖 的 概念 化 上 集成 了 LDA 到 概念 化 中 。 不 过 由 于 其 覆盖 率 和 可 
扩展 性 较 差 ， 它 并 不 适用 于 本 章 的 场景 。 通 常 而 言 ， 一 个 好 的 模型 要 在 复杂 性 和 精确 性 中 进行 权衡 。 本 章 所 提 的 基于 语义 的 方法 
提供 了 一 个 精确 同时 又 具有 较 强 抽象 能 力 的 模型 。 


1 .概念 化 层级 


一 个 实体 可 能 会 匹配 到 许多 概念 上 ， 有 些 概念 非常 具体 ， 而 另外 一 些 则 非常 抽象 。 因 此 ， 在 匹配 一 个 实体 对 ,如 (smart 
cover, iphone 5s) ， 到 一 个 概念 对 的 时 候 ， 有 两 种 极 闹 的 方式 。 首 先 ， 可 以 映射 到 它 自己 ， 也 就 是 说 ,将 “smart 
cover” 和 “iphone 5s" 当成 一 种 概念 。 但 是 这 种 映射 不 具有 抽象 能 力 ， 也 融 是 说 ， 它 只 能 覆盖 它 自 己 ， 而 不 能 履 盖 到 其 他 实 
体 对 。 其 次 ， 可 以 将 其 映射 到 (object，object) 。“object” 是 一 个 基本 概念 ， 所 有 的 实体 都 会 属于 这 个 概念 。 但 是 这 种 映射 
也 是 没有 意义 的 ， 因 为 它 不 能 够 将 主题 词 和 限定 性 修饰 词 区 分 开 来 。 


一 个 更 加 有 具有 挑战 性 的 问题 是 , 将 “skype for windows phone" 映射 到 (company [head] ，device [modifier] ) ， 
将 “iphone 5s for verizon” 了 映射 到 (device fhead] , company [modifier] ) ， 它 们 看 起 来 都 是 正确 的 ， 但 是 这 样 的 结果 模式 
却 导致 了 冲突 : 当 company 和 device 一 同 出 现时 ， 第 一 个 模式 说 company 是 主题 词 ， 而 第 二 个 模式 这 device 是 主题 词 。 显 然 ， 
这 样 的 映射 有 些 太 过 抽象 ,或 者 说 太 粗 粒度 了 。 


因此 ， 概 念 化 的 原则 包含 两 个 方面 。 首 先 ， 必 须 避 免 概念 太 过 具体 ， 因 为 太 过 具体 的 概念 的 抽象 能 力 较 差 。 此 外 ， 大 过 具体 
的 概念 也 会 导致 产生 大 量 概念 级 别 的 主题 词 -修饰 词 模式 ， 从 而 削弱 概念 模式 的 优势 。 其 次 ， 必 须 避 免 概念 太 过 抽象。 过 于 抽象 
会 导致 许多 冲突 的 模式 ， 因 为 它们 的 表达 能 力 超过 了 适当 的 范围 。 


2. 概 念 化 实体 


现在 展示 如 何 将 一 个 单个 实体 映 届 到 一 组 合适 的 概念 上 。 如 图 5-4 折 示 ， 从 一 个 实体 e， 通 过 加 权 的 isA 天 系 边 ， 可 以 到 达 e 
的 概念 C={c1，…，cnj。 每 条 边 表 示 的 是 给 定 e 后 ci 的 典型 性 值 ， 以 及 给 定 ci 后 e 的 典型 性 值 。 


选择 概念 的 一 个 标准 是 ， 给 定 一 个 词 e， 必 须 同 时 考虑 其 映射 的 概念 的 抽象 性 和 具体 性 。 考 虑 如 下 四 种 可 能 的 方式 来 映射 e 


slc: 
1) 映射 e 到 ci， 如 果 P_ (cle) 是 在 top k 中 。 
2) 映射 e 到 cj， 如 果 P (elc) 是 在 top k 中 。 
3) 映射 e 到 ci， 如 果 P (cile) P (elc) 是 在 top kf, 
4) 映射 e 到 它 目 己 ， 如 果 e 本 身 是 一 个 概念 。 


前 两 种 方法 不 是 很 好 ， 因 为 那些 P (cle) 值 太 高 的 概念 可 能 会 过 于 抽象 。 例 如 根据 P (cle) 排序 的 “iphone” 的 概念 ， 排 
在 前 列 的 是 product、device 等 。 这 是 因为 抽象 的 概念 出 现 得 更 加 频繁 。 另 外 ， 那 些 拥 有 较 高 P (el) 值 的 概念 可 能 会 过 于 具 
体 ， 这 是 因为 当 一 个 概念 c 包 含 较 少 数量 的 实体 时 ， 它 的 P (elc) 值 会 更 大 。 例 如 ， 根 据 P (elc) 排序 的 “iphone” 的 概念 ， 排 
在 前 列 的 是 finger-friendly touchscreen phone, apple' s mobile device 等 。 在 综合 考虑 抽象 性 与 具体 性 后 ， 第 三 种 方法 是 


一 个 不 错 的 选择 ， 也 束 是 说， 将 e 映 射 到 那些 P (cie) P (elc) 比较 六 的 概念 上 。 下 观 而 言 ， 这 个 分 数值 是 一 种 2 步 随机 游 走 
(random walk) 的 概率 值 ， 它 从 e 出 友 ， 表 经 过 ci 返回 到 e。 这 个 值 越 大 ， 显 示 了 在 整个 数据 集合 中 ，ce 是 非常 近 的 。 


图 5-4 ”在 Probase 语 义 网 络 上 的 随机 游 走 


第 四 种 方法 是 一 种 特殊 的 情况 ， 值 得 仔细 考虑 。 一 个 实体 e 也 有 可 能 本 身 就 是 一 个 概念 ， 而 且 有 时 候 它 已 经 是 一 个 最 合适 的 
概念 。 例 如 ， 当 e= “company”， 第 三 种 方法 可 能 映射 到 概念 “organization” ， 甚 至 是 “object”。 而 这 样 的 概念 太 过 模 
糊 。 另 一 方面 ， 如 果 e 是 一 个 非常 具体 的 概念 ， 如 e= “small IT company" ， 那 么 使 用 第 三 种 方法 将 e 映 射 到 “IT 
company” 或 “company” 是 合理 的 。 理 想 状 况 下 ， 这 种 情况 下 的 概念 化 需要 保持 那些 已 经 覆盖 一 定数 量 实 体 的 概念 。 在 本 工 
(EB, ATESA (entropy) 来 作为 一 个 指示 变量 : 


H(c)—— >) Ple |c)logP(le | c) (5. 6) 


E Ni ^ T? 
e 是 c 的 一 个 实体 


EWE, — MIURA SRE ASSESS, CHRIS IRA. STM, BRIRABICAC. Pile, wt 
ms "device" ARABIE (7.54) ， 而 概念 “recording device" NA—SBv)\AUKE (1.67) 。 具 体 而 言 ， 在 满足 如 下 所 有 
条 件 时 匹配 e 到 它 目 己 : @e 是 一 个 概念 ， @ 对 于 e 的 每 一 个 父 概念 H (e) >H (c) ; @e 的 出 现 次 数 大 于 一 个 国 值 (如 果 e 非 党 
稀少 ， 则 H (e) 值 没 有 意义 ) 。 


归纳 起 来 ， 映 射 一 个 实体 e 到 一 组 概念 C 上 包括 如 下 情况 。 如 果 e 是 一 个 满足 上 述 条 件 的 概念 ， 则 C={e}Utopk-1 (e) , AN 
C=topk (e) 。 其 中 ，topk(e) 是 使 用 上 述 第 三 种 方法 所 取得 的 top-k 个 概念 。 对 于 任意 ciEC， 它 都 对 应 一 个 分 数值 
CS (e, ci) : 


l Ci =e 
CSle sc; ) = oe 79 
Pc; |e): Plge |c) Fe 


3. 概 念 对 


为 了 能 够 将 一 组 实体 级 别 的 主题 词 -修饰 词 对 映射 到 一 组 更 小 的 概念 级 别 的 主题 词 -修饰 词 模式 上 ， 首 先 分 别 概念 化 实体 级 别 
的 主题 词 和 修饰 词 ， 然 后 再 将 它们 合并 成 概念 级 别 的 主题 词 -修饰 词 模式 。 

然而 ， 如 何 完成 这 种 合并 并 不 是 一 个 简单 的 任务 。 例 如 ， 词 “apple” 可 以 概念 化 到 “fruit” 和 “company”。 
itt, “CEO for apple” 会 导致 两 种 可 能 的 概念 对 : (corporate officer, company) 或 (corporate officer, fruit) 。 显 
$^, (corporate officer, fruit) 是 错误 的 。 这 意味 着 不 应 该 将 每 个 主题 词 -修饰 词 对 独 目 概 念 化 。 对 于 上 述 例子 ， 有 许多 相似 
的 查询 ， 如 “CEO for Microsoft” 和 “CEO for IBM”。 这 些 查 询 会 进一步 支持 (corporate officer, company) ， 而 不 是 
(corporate officer, fruit) 。 换 言 之 ， 通 过 聚集 不 同 的 查询 ， 能 够 提供 消除 上 收 义 的 能 力 。 


具体 而 言 ， 对 于 每 一 个 实体 级 别 的 主题 词 -修饰 词 对 ， 将 它们 的 主题 词 和 修饰 词 移 独 目 概念 化 。 然 后 合并 所 有 可 能 的 概念 化 
结果 ， 对 所 有 得 到 的 概念 化 对 (ci, c) ” (其 中 ，ci 是 主题 词 概念 ，c 是 修饰 词 概念 ) ， 通 过 如 下 公式 进行 合并 排序 : 


Score(c; .c;) = >) CS(e, c) CS(e,yc;) * logN(e, +e.) (5.8) 


其 中 ，CS (e, c) 是 e 映 射 到 概念 c 时 的 分 数值 (在 式 (5.7) PEX) N (ey, ey) 是 实体 对 (ey, ey) BAITARE. X 
里 对 N (ey, ey) 取 对 数 的 目的 是 防止 查询 次 数 过 大 而 导致 对 最 终 分 数 的 过 度 影响 ， 这 确保 了 那些 有 大 量 实体 对 支持 的 概念 对 能 
够 排序 更 高 。 而 那些 由 于 叔 义 所 导致 的 错误 的 概念 对 则 只 有 较 低 的 分 数 ， 并 且 能 够 被 进一步 过 滤 掉 。 

除了 歧义 性 ， 这 一 过 程 中 还 可 能 存在 相似 概念 对 的 问题 。 因 为 Probase 包 含 大 量 概念 ， 有 些 概 念 非常 相像 ， 


如 “country” 和 “nation”。Li 等 人 [提出 k-Medoids 聚 类 算法 来 对 这 些 概念 进行 聚 类 。 本 书 也 借用 了 其 聚 类 结果 来 对 概念 对 


[1] Kim D, Wang H.Context-dependent Conceptualization | C] .International Joint Conference on Artificial Intelligence, 2013: 2654- 
2661. 


[2] Li P, Wang H, Zhu K Q, et al.Computing Term Similarity by Large Probabilistic Isa Knowledge | C] .Proceedings of The 22nd ACM 


International Conference on Information and Knowledge Management. ACM, 2013: 1401-1410. 
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5.5.1. 解析 


给 定 一 个 短文 本 ， 首 先 将 其 中 能 够 识别 的 所 有 词 给 识别 出 来 。 这 一 过 程 使 用 Probase 作 为 一 个 词典 。 在 解析 过 程 中 ， 如 果 一 
个 词 是 另外 一 个 词 的 子 串 (如 “New York” 和 “New York Times" ) ， 则 选择 最 长 的 那个 词 册 。 然 后 将 其 中 的 非 限定 性 修饰 
词 移 除 。 对 于 剩余 的 词 ， 首 先 将 它们 根据 语义 聚 类 成 组 件 ， 这 样 ， 每 一 个 组 件 包 含 了 一 些 相同 语义 的 词 。 这 样 做 有 两 个 原因 。 首 
先 ， 一 些 短 文本 如 “apple ipad microsoft surface”， 包 含 了 多 个 主题 词 ( 即 用 户 想 要 比较 两 个 产品 ) 。 其 次 ， 聚 类 成 组 件 可 
以 减少 概念 化 所 产生 的 概念 候选 对 的 数量 。 在 上 述 例子 中 ， 它 包含 了 4 个 词 : “apple” . "ipad" . 
“microsoft” #] “surface” ， 但 是 只 有 两 个 组 件 ， 即 {apple，microsoftj 和 {fipad，surface}。 第 一 个 组 件 是 关于 company， 
而 第 二 个 组 件 是 关于 device。 从 解析 的 词 到 聚 类 为 组 件 可 以 通过 发 现 其 中 不 相交 的 团 (clique) 来 实现 四。 


假设 最 终 有 k 个 组 件 留 下 。 如 果 k=1， 则 直接 返回 这 个 组 件 作为 短文 本 的 主题 词 。 因 此 下 面 将 着 重 讨论 k=2 以 及 k>2 的 情 
况 。 在 多 数 情 况 下 ， 一 个 组 件 只 包含 一 个 词 ， 因 此 ， 为 了 表述 方便 ， 下 文 的 讨论 中 使 用 单个 词 来 表示 一 个 组 件 。 


[1] 如 果 最 长 的 词 是 一 个 非常 少见 的 词 ， 则 也 会 同时 考虑 较 短 的 那个 词 。 
[2] Song Y, Wang H, Wang Z, et alShort Text Conceptualization Using A Probabilistic Knowledgebase LC] .Intetnational Joint 
Conference on Artificial Intelligence, 2011: 2330-2336. 


5.5.2. ETRY FAME ENA- 


考虑 一 个 短文 本 中 包含 两 个 组 件 “smart cover" $1 "iphone 5s" 的 情况 。 图 5-5 展 示 了 整个 主题 词 -修饰 词 检 测 过 程 。 


eig) 2 A 
Fopular smart Æl: | = Smart cover: 
cover iphone 5s is T 念 模式 聚 类 1 主题 词 
解析 有 标记 非 accessory | (accessory, iphone 5s: 
限定 性 修饰 词 BEES 限定 性 修饰 词 


mobile T 
仿 模 式 聚 类 2 
accessory T" RIVERS 
Popular: | smart u smart 
非 限定 性 | C9ver part phone 概念 模式 聚 类 3 
修饰 词 iphone 5s - 
mobile 
phone 
Smart iphone 5s 
cover 


图 5-5 ”针对 包含 两 个 组 件 的 短文 本 进行 主题 词 -修饰 词 检测 过 程 


在 这 个 过 程 中 ， 首 先 将 “iphone 5s” 概 念 化 到 {mobile phone, smart phone, phone, device, ...}, 将 “smart 
cover” 概 念 化 到 {mobile accessory，accessory，part，...}。 每 一 个 (ial, 概念 ) 对 (e, c) 都 关联 着 一 个 由 式 (5.7) 计算 
而 来 的 分 数 CS (e, c). 


然后 ， 在 获得 的 概念 模式 知识 库 中 进行 搜索 ， 找 到 匹配 ， 如 (accessory，device) ， 每 一 个 概念 模式 也 都 关联 着 一 个 由 式 
(5.8) 计算 而 来 的 分 数值 。 


将 这 些 分 数值 进行 聚集 来 识别 其 中 的 主题 词 与 修饰 词 。 对 于 组 件 t1 和 t2， 如 果 f(t1，t2) >f (to, t€) ， 则 认为 t1 是 主题 词 


而 t2 是 修饰 词 。 其 中 f (t4, t2) 定义 如 下 : 


fist.) 一 > CSU, (C1) * CS Ct? ^c?) * Score(c; c?) 


G ] * t 4) 


其 中 CS(t.c)= >) CSle:,c) (5. 9) 


e; € comp 


概念 上 而 言 ， 上 述 公 陈 将 来 目 概念 模式 的 证 据 进 行 聚集 ， 然 后 决定 哪个 组 件 更 有 可 能 是 主题 词组 件 。 


5.5.3 ”针对 两 个 以 上 组 件 的 主题 同 - 修 饰 同 检测 


如 图 5-1b 所 示 ， 大 量 的 搜索 查询 包含 多 于 两 个 组 件 。 为 了 解决 这 个 问题 ， 首 先 使 用 上 述 过 程 来 检测 任意 两 个 组 件 之 间 的 主 
题词 -修饰 词 关系 。 然 后 ， 将 查询 表示 成 一 个 有 向 图 ， 其 中 的 顶点 表示 组 件 ， 而 有 向 边 表示 组 件 间 的 主题 词 -修饰 词 关系 。 每 一 条 
边 的 方向 是 从 修饰 词 指向 主题 词 。 图 5-6 给 出 了 两 种 具体 情况 的 例子 。 
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图 5-6 ”根据 主题 词 -修饰 词 关系 构建 的 组 件 有 向 图 


在 这 个 有 向 图 中 ， 那 些 出 度 为 0 的 顶点 显然 表示 的 是 主题 词 。 如 果 这 个 图 是 无 环 图 ， 则 可 以 找到 一 组 路 径 序 列 ， 从 修饰 词 到 
主题 词 。 在 图 5-6a 中 ， 有 两 条 这 样 的 路 径 : smart cover 一 iphone 5s—apple-seattlef[]smart cover—iphone 5s+seattle, 
每 一 条 路 径 序列 描述 了 这 些 词 之 间 的 修饰 天 系 。 通 过 修饰 词 与 主题 词 在 路 径 上 的 远近 关系 ， 可 以 对 这 些 修 饰 词 进行 排序 。 排 序 越 
低 的 词 ， 它 作为 修饰 词 的 重要 性 也 越 低 。 在 这 个 图 中 ， 还 可 能 有 一 些 孤立 的 组 件 ， 如 组 件 list， 它 没有 与 任何 其 他 组 件 关 联 。 这 
是 因为 它 与 其 他 任何 组 件 之 间 都 没有 主题 词 -修饰 词 关系 ， 或 者 是 挖 据 出 来 的 概念 模式 知识 库 中 焉 落 了 一 些 概念 模式 。 对 于 这 样 
的 组 件 顶 点 ， 仍 然 可 以 当成 主题 词 ， 因 为 没有 任何 其 他 证 据 证 明 它 们 是 修饰 词 。 


在 一 些 极 辛 情况 下 ， 这 个 有 向 图 可 能 会 包含 环 ， 如 图 5-6b 所 示 。 环 通常 是 由 那些 有 上 由 义 的 主题 词 - 修 饰 词 关 系 导 致 的 。 例 
如 ， 在 “college football player” 中 ， 可 以 得 到 修饰 关系 “player 一 football 一 college” 。 然 而 ， 对 于 实体 对 
(college, player) 而 言 ， 可 能 映射 到 两 种 概念 模式 上 ， 即 player< 一 college 和 college 熏 player， 前 者 的 查询 意图 是 寻 


找 “player”， 而 后 者 的 查询 意图 是 寻找 “college”。 对 于 这 样 的 有 环 图 ， 可 以 通过 下 面 的 方法 来 移 除 环 : 
- 根据 式 (5.9) ， 每 一 条 边 都 关联 着 一 个 权重 ， 可 以 将 权重 最 低 的 边 移 除 ， 从 而 消除 环 。 
. 如 果 在 有 环 图 中 有 一 个 很 明显 的 主题 词 顶 点 ， 而 其 他 整个 环 都 用 于 修饰 这 个 主题 词 ， 则 将 整个 环 作为 一 个 修饰 词 。 


因此 ， 在 上 述 例子 “college football player” 中 ， 可 以 将 权重 最 低 的 边 college 一 player 移 除 。 通 过 消除 其 中 的 环 ， 束 可 以 
知道 “player” 是 主题 词 ， 而 “college” 和 “football” 是 修饰 词 。 另 一 方面 ， 如 果 查 询 是 “college football player entrance 
exam”， 则 整个 环 都 用 于 修饰 “entrance exam" (如 图 5-6b 所 示 ) ， 则 主题 词 是 “entrance exam”， 而 这 个 环 是 它 的 修饰 


ig]. 


显而易见 ， 本 书 所 提出 的 主题 词 - 修 饰 词 检测 方法 并 不 依赖 于 词 之 间 的 相对 位 置 。 这 使 得 该 方法 能 够 对 短文 本 (如 查询 等 ) 
十 分 有 效 ， 因 为 这 些 短文 本 通 弟 都 不 会 遵守 语法 规则 。 


5.6 ”相关 工作 


大 部 分 查询 意图 检测 方法 基于 查询 主题 分 类 [JI21B]， 在 KDD Cup 2005 上 ， 其 任务 是 将 查询 分 配 到 67 个 类 中 办。 这些 方 法 
通常 都 没有 很 好 的 覆盖 率 ， 因 为 它们 都 受 限 于 目前 已 有 的 分 类 系统 。 另 一 个 问题 是 当前 的 分 类 系统 的 粒度 并 不 能 很 好 地 适应 查询 
意图 检测 的 粒度 。 例 如 ，“job search” 和 “job interview" 都 属于 “job” 这 个 类 别 ， 但 是 它们 却 有 不 同 的 查询 意图 。 


Bendersky 等 人 中 | 尝试 通过 给 查询 中 不 同 词 赋予 不 同 的 权重 来 解决 这 个 问题 ， 但 是 如 实验 中 所 述 ， 效 果 并 不 理想 。 查 询 重 写 
也 与 查询 意图 检测 关系 密切 。Kumaran 等 人 Lt 通过 删除 查询 中 较 不 重要 的 词 ， 将 一 个 长 的 查询 转 成 短 的 查询 。 这 样 做 的 理由 
是 ， 短 查询 通常 层 义 较 小 ， 查 询 频 度 更 高 ， 并 且 搜 索引 擎 和 搜索 广告 系统 都 非常 善于 处 理 这 类 查询 。 另 一 方面 ， 长 查询 的 出 现 次 
数 通常 较 少 ， 更 有 可 能 包含 具有 歧义 的 词 ， 并 且 对 于 搜索 引擎 而 言 也 更 难处 理 。 这 两 种 方法 都 定义 了 一 些 特征 来 给 词 赋予 权重 ， 
或 者 基于 统计 信息 对 子 查询 进行 排序 。 在 前 一 种 方法 中 ， 作 者 定义 了 uni-grams 和 bi-grams 作 为 “概念 ”， 并 且 收 集 这 些 概念 
在 文档 、Wikipedia 标 题 和 Google n-grams 中 的 频 度 作为 特征 。 他 们 使 用 线性 模型 将 这 些 特 征 组 合 起 来 作为 查询 中 概念 的 权 
重 。 然 后 ， 他 们 构建 了 一 个 依赖 于 概念 权重 的 模型 来 进行 信息 检索 。 然 而 ， 在 他 们 的 工作 中 “概念 ”只 是 查询 中 的 词 ， 并 不 是 实 
际 意义 上 的 抽象 概念 。 在 后 一 篇 论文 中 ， 作 者 实现 了 多 种 特征 来 预测 查询 的 质量 ， 如 两 个 词 之 间 的 交互 信息 、 查 询 清晰 度 (也 就 
是 查询 模型 和 采集 模型 之 间 的 KL 距 离 ) 等 。 然 后 ， 作 者 使 用 Rank SVM 基于 这 些 特征 来 训练 一 个 分 类 器 ， 为 子 查询 学 习 一 个 排 
序 函数 。 这 两 种 方法 都 基于 词 统计 特征 来 为 词 赋予 权重 ， 因 此 需要 大 量 的 文本 集合 以 及 标注 数据 。 然 而 ， 这 些 特征 与 词 的 含义 并 
不 相关 ， 因 此 这 些 特征 并 不 能 决定 词 之 间 的 主题 词 -修饰 词 关系 。 相 反 ， 本 章 的 方法 使 用 了 语义 特征 〈 即 概念 模式 ) 。 这 些 特征 
能 够 显 式 地 解释 主题 词 -修饰 词 关 系 。 


近年 来 ， 还 有 一 些 工作 通过 将 词 匹 配 到 一 些 模板 中 来 识别 查询 意图 "8 站。Li 等 人 [0 使 用 语义 和 语法 特征 将 查询 分 解 为 意 
图 主题 词 和 意图 修饰 词 。 他 们 考虑 了 属性 名 作为 意图 主题 词 ， 属 性 值 作为 意图 修饰 词 。 然 而 ， 他 们 需要 一 个 主题 词 和 修饰 词 的 词 
典 ， 并 且 这 些 属性 名 和 属性 值 只 能 适用 于 特定 领域 。Cheung 等 人 [1 1] 将 查询 进行 聚 类 ， 然 后 为 每 个 领域 构建 模式 ， 从 而 解决 依 
赖 于 领域 的 结构 化 搜索 、Chang 等 人 [1 “提出 了 一 种 精细 的 基于 前 向 和 反 向 随机 游 走 的 概率 推导 框架 ， 来 为 每 个 领域 构建 查询 模 
板 。 虽 然 这 些 工 作 和 本 章 方法 都 是 解决 寻找 查询 中 各 个 词 之 间 的 关系 ， 但 是 他 们 的 方法 更 关注 于 将 查询 映射 到 一 个 特定 领域 的 特 
定 模板 中 。 相 反 ， 本 章 的 方法 旨 在 找寻 通用 的 主题 词 -修饰 词 关 系 ， 使 其 能 够 处 理 所 有 的 查询 ， 而 不 是 特定 领域 里 的 查询 。 


还 有 一 些 工作 [3 上 4 使 用 包含 介词 “for”、 “of” 的 语法 模式 来 进行 属性 抽取 。 显 然 ， 属 性 是 可 以 用 于 定义 主题 词 -修饰 词 


关系 的 。 但 是 主题 词 - 修 饰 词 天 系 却 不 仅仅 局 限于 实体 属性 的 关系 。 例 如 , 在 “movie review" , "side effect for 

drug” 中 ，review 和 side effect 并 不 是 movie 和 drug 的 属性 。 主 题词 -修饰 词 关系 更 加 宽泛 一 些 , 如 “game for girls” 
"accessory for vehicle” 等 。 在 本 章 所 提 方 法 中 ， 使 用 了 概念 之 间 的 语义 关系 来 为 主题 词 -修饰 词 关系 建 模 。 另 有 一 些 工作 尝 
试 挖掘 所 有 实体 对 之 间 的 特定 关系 ， 如 Agichtein 等 人 [1 ?发现 一 些 特定 的 模板 , 如 “ORGANIZATION' s headquarters in 
LOCATION”。 这 些 模 板 需 要 一 些 种 子 实 体 对 来 产生 。 这 类 方法 与 本 章 方 法 最 大 的 区 别 在 于 ， 本 章 方法 是 在 概念 级 别 对 这 些 关 
系 进行 建 模 的 。 
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5.7 小结 


短文 本 理解 是 一 项 重要 且 语 有 挑战 性 的 任务 。 它 可 以 应 用 于 许多 不 同 的 应 用 ， 包 括 搜索 相关 性 、 广 告 关键 字 选 择 、 查 询 扩 
展 / 重 写 / 分 类 等 。 在 短文 本 意图 理解 中 ， 最 关键 的 步骤 之 一 丈 是 正确 地 识别 短文 本 中 的 主题 词 与 修饰 词 。 本 草 介 绍 了 一 种 基于 语 
义 的 方法 进行 主题 词 、 非 限定 性 修饰 词 ， 以 及 限定 性 修饰 词 的 检测 。 这 种 方法 首先 通过 无 监督 学 习 的 方式 获得 大 量 实体 级 别 的 主 
题词 -修饰 词 天 系 ， 然 后 将 它们 “提升 ”到 概念 级 别 ， 从 而 导出 一 个 抽象 而 精确 的 模型 来 为 所 有 领域 的 短文 本 进行 主题 词 - 修 饰 记 
天 系 检测 。 丰 证 的 实验 结果 展示 了 本 章 方法 在 识别 短文 本 中 的 主题 词 和 修饰 词 中 取得 了 不 错 的 效果 。 并 且 ， 本 章 方 法 可 以 直接 应 
用 于 两 个 短文 本 之 间 的 语义 相似 度 值 计 算 。 因 为 在 识别 出 短文 本 中 的 主题 词 和 修饰 词 关系 后 ， 可 以 为 它们 赋予 不 同 的 权重 。 


不 过 ,仍然 有 许多 问题 有 答 未 来 解决 。 针 对 非 限定 性 修饰 词 的 挖 据 ， 目 前 本 书 使 用 了 Probase 中 的 概念 空间 。 然 而 ， 这 也 可 
能 引入 Probase 的 偏 同 性 。 如 何 使 用 一 种 更 加 精妙 的 方法 来 解决 非 限定 性 修饰 词 的 挖掘 和 使 用 (而 不 是 简单 地 删除 非 限定 性 修饰 
词 ) 是 一 个 非常 有 意思 的 研究 课题 。 此 外 ， 如 何 更 加 巧妙 地 解决 冲突 实体 对 和 站 突 的 概念 模式 ， 是 本 草 所 提 框 架 中 一 个 非常 重要 
的 待 解决 问题 。 最 后 ， 识 别 出 那些 未 见 过 的 实体 并 将 其 映射 到 合适 的 概念 模式 上 ， 可 以 进一步 提高 本 章 方法 的 履 兰 率 和 识别 效 
Ro 


第 6 章 ” 基 于 概念 化 的 词 相似 度 计 算 


计算 两 个 词 之 间 的 相似 度 对 很 多 与 文本 分 析 理 解 相关 的 应 用 至 关 重 要 。 目 前 ， 这 一 任务 主要 有 两 种 解决 方法 : 基于 知识 的 方 
法 和 基于 文集 的 方法 。 然 而 ， 这 些 方法 主要 应 用 在 单词 之 间 的 语义 相似 度 计算 ,无 法 扩展 到 由 多 个 单词 组 成 的 多 词 表 达 式 或 文 
本 。 针 对 此 问题 ， 本 章 提出 一 种 基于 大 型 语义 网 络 的 词 相似 度 计 算 方法 。 该 语义 网 络 基于 十 亿 级 的 网 页 文本 创建 ， 包 含 百 万 级 的 
概念 。 本 章 首 先前 述 如 何 将 两 个 词 映射 到 概念 空间 ， 进 而 介绍 一 种 概念 聚 类 的 方法 ， 该 方法 可 提高 相似 上 度 度 量 的 准确 性 。 本 重修 
举 大 量 实验 以 证 明 本 章 提出 的 方法 可 以 准确 硫 量 包含 收 义 的 长 词 的 相似 性 。 实 验 结果 表明 ， 该 方法 不 仅 在 皮尔 逊 相关 系数 的 度量 
准确 性 上 优 于 12 种 基准 方法 ， 而 且 能 更 加 高 效 地 在 大 规模 数据 集 上 计算 词语 义 相似 度 。 


计算 词语 义 相似 度 是 词汇 语义 研究 1 的 一 个 基本 问题 ， 且 与 多 个 关于 网 页 文本 搜索 和 理解 的 应 用 [外 SB 息息相关 。 所 谓 的 词 ， 
既 指 单个 单词 ， 又 包含 由 多 个 单词 组 成 的 多 词 表达 式 。 所 谓 的 词语 义 相似 ， 指 两 个 词 具有 相近 的 含义 ， 或 它们 代表 的 概念 具有 类 
似 的 属性 。 例 如 ，“Google” 和 “Microsoft” 语 义 相 似 ， 因 为 二 者 都 是 软件 公司 。 另 一 方面 ，“car” 和 “journey” 的 语义 却 
不 相似 但 相关 ， 因 为 “car” 是 “journey” 这 一 活动 的 某 一 交通 手段 。 具 体 而 言 ， 语 义 相似 度 由 词 在 isA 关 系 网 中 的 距离 来 度 
量 。 如 图 6-1 所 示 ，“car” 和 “journey“” 在 WordNet 负 的 isA 语 义 网 中 距离 较 远 。 相 比 于 相关 度 而 言 ， 语 义 相似 度 是 一 种 更 加 
具体 且 更 难度 量 的 关系 。 


entity 


physical entity 
object, physical object 
whole, unit 
artifact, artefact 
instrumentality, instrumentation 


conveyance, transport 


vehicle 


wheeled vehicle 


self-propelled vehicle 


abstract entity 
abstraction 
psychological feature 


event 


act, human, action, human activity 
action 
change 
motion, movement, move 


travel, traveling, travelling 


automotive vehicle, motor vehicle walk Journey 
amphibian, car, auto, automobile, commute drive, ride AS 
amphibious vehicle machine, motorcar 
| lift joyride 
ambulance cab, hack, taxi 
gypsy cab minicab 


图 6-1 WordNet? 442 “car” fe "journey 语义 距离 的 一 部 分 


关于 词 相似 度 度量 的 最 新 方法 可 被 分 为 两 类 : 基于 知识 的 方法 和 基于 文集 的 方法 。 基 于 知识 的 方法 依靠 人 工资 源 作为 相似 度 
比较 的 语 境 ， 如 辞典 、 分 类 架构 和 百科 全 书 。 在 这 一 领域 更 多 的 方法 Pioll7] 使 用 WordNet 中 的 isA 语 义 关 系 网 。 基 于 文集 的 方法 
通过 文集 获取 词 的 语 境 。 文 集 可 以 是 任何 网 页 文本 、 搜 索 记 录 和 其 他 形式 的 文本 。 


然而 ， 上 述 两 种 方法 都 有 不 足 之 处 。 基 于 知识 的 方法 的 缺点 在 于 分 类 架构 (如 WordNet) 有 限 的 覆盖 率 。 经 历 40 年 的 友 
展 ，WordNet 的 最 新 版 本 (3.0) 包含 155287 个 单词 、117659 个 同义词 集合 和 206941 对 单词 词义 关系。 即便 如 此 ， 仍 有 许多 名 
i (如 Google 和 Microsoft) 和 词义 (如 Apple the company 和 Jaguar the car make) 尚未 包含 。WordNet 的 另 一 不 足 在 于 
它 主 要 包 合 单词 ， 而 只 包含 少量 多 个 词组 成 的 词组 和 表达 式 。 例 如 ， 它 不 包含 “General Electric" && "emerging 
markets”。 因 此 ， 基 于 WordNet 的 方法 无 法 计算 这 些 未 知 词 的 相似 度 。 在 当今 快速 友 展 的 世界 ， 人 工 创 建 的 词汇 数据 库 (如 
WordNet) 的 更 新 无 法 跟 上 人 类 语言 新 词汇 产生 的 节奏 。 


基于 文集 的 万 法 也 面临 诸多 严峻 的 问题 。 首 先 ， 这 些 度量 方法 因 搜 索引 擎 的 这 引 排 序 机 制 而 存 有 偏 为 。 例 如 ， 当 在 Google 
查询 “data” 或 “range” 时 ， 前 100 条 记录 都 不 包含 “fruit” (date 的 一 个 含义 ) gy "cooking stove” (range 的 一 个 含 
X) ， 因 为 这 些 都 是 词 的 稀有 合 义 。 根 据 这 样 的 搜索 结果 ， 基 于 文集 的 方法 会 认为 “Asian pear” 和 “date” 几 平 没有 共同 之 
处 ， 其 次 ， 基 于 搜索 结果 的 相似 度 度量 方法 需要 较 遍 的 通信 和 率 引 耗 时 ， 因 而 不 适用 于 在线 应 用 。 再 次 ， 基 于 单词 或 n-gram 的 
统计 分 布 忽略 了 以 下 事实 : 个 语 义 单元 可 能 是 多 词 表达 式 ， 而 不 仅仅 是 单词 和 n-gram; @ 很 多 单词 和 词组 都 包 合 歧义 ， 


如 “apple” 可 能 表示 fruit 或 company。 因 此 ， 计 算出 的 分 布 可 能 并 不 准确 。 最 后 ， 基 于 文献 的 方法 侧重 于 词 的 周围 语 境 或 词 与 
词 的 共 现 次 数 ， 而 这 些 统计 方法 更 适用 于 计算 词 的 相关 度 而 不 是 相似 度 。 若 用 这 些 方 法 计算 ， “car” 和 “journey” 会 有 较 高 的 
语义 相关 度 得 分 ， 因 为 二 者 在 网 页 文本 中 频繁 共 现 。 


本 章 提出 一 种 快速 有 效 地 计算 语义 相似 度 的 方法 ， 该 方法 使 用 通过 网 页 文本 获取 的 大 型 isA 关 系 网 络 。 如 下 为 词 相似 度 计算 
结果 示例 : 


- 高 相似 度 (同义词 ) : general electric 和 ge。 
. 表示 同一 实体 的 同义词 应 具有 最 高 相似 度 得 分 。 
- 高 相似 度 (有 歧义 的 词 ) : mictosoft 和 apbple，otange 和 ted。 


` 诸如 apple 或 orange 的 单词 具有 多 重 词 义 。 然 而 ， 当 将 apple 与 microsoft 进 行 比较 时 ， 应 为 apple 选 取 company 这 一 词义 而 不 是 


fruit. 当 将 orange 与 ted 进 行 比较 时 ， 应 为 orange 选 取 color 这 一 词义 而 不 是 fruit。 此 ， 在 计算 词 相 似 度 时 需 上 默认 对 词 进行 消 歧 。 
- 低 相 似 度 (虽然 企 WordNet 中 具有 相同 上 位 词 ) : music 和 lunch，banana 和 beef。 


` 这 两 组 词 的 词义 虽 不 相关 ， 但 在 isA 关 系 网 络 中 ，music 和 lunch 可 能 同属 activity 这 个 概念 ，banana 和 beef 可 能 同属 food 这 个 概 


ap 


(CUE (相关 但 不 相似 ) : applefeipad, carfejourney. 


- 相似 度 不 同 于 相关 度 。 比 如 ，apple 和 ipad、catr 和 journey 均 相关 但 不 相似 。 这 是 由 于 ipad 是 apple 公 司 制造 的 电子 产品 ，cat 是 


实现 journey 这 一 活动 的 菜 一 交通 工具 。 它 们 属于 不 同 概 念 。 
本 章 方法 的 贡献 如 下 : 


. 本 章 的 方法 具有 更 好 的 覆盖 率 。 该 方法 所 使 用 的 语义 网 络 包 含有 远 多 于 WordNet 的 上 位 词 下 位 词 关 系 。 不 同 于 基于 
WordNet 的 方法 ， 该 方法 可 以 度量 几乎 所 有 的 词组 的 相似 度 。 


. 本 章 方法 可 产生 更 有 意义 的 相似 度 度量 。 同 基于 文献 的 方法 不 同 ， 该 方法 计算 的 相似 度 不 同 于 相关 度 ， 且 能 够 为 词 消 歧 ， 
以 去 除 不 相关 的 词义 所 产生 的 噪声 。 


. 本 章 方 法 更 为 高 效 。 该 方法 中 最 昂贵 的 聚 类 步骤 可 以 离线 完成 ， 剩 余 的 相似 度 计算 步骤 可 以 高 效 在 线 完 成 。 该 方法 平均 花 


W OS SAH HAA BR E 


本 章 结 构 如 下 : 6.2 节 介绍 Probase 的 基本 情况 及 isA 语 义 天 系 网 络 ; 6.3 节 摘 述 基于 Probase 的 词 相似 度 计算 方法 ; 6.4 节 提 
出 词 相似 度 计 算 方 法 的 进一步 改进 ; 相关 工作 和 结论 将 分 别 在 6.6 节 和 6.7 市 给 出 。 
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6.2 ”语义 网 络 和 同义词 集合 


两 个 词 的 语义 相似 度 可 通过 二 者 的 语 境 相似 度 计算 。 本 章 方法 所 使 用 的 语 境 来 源 于 一 个 大 规模 的 概率 语义 网 络 Probasel1。 
Probase 包 含 概念 、 子 概念 和 实体 间 的 isA 关 系 ， 表 示 为 [isA。 这 些 isA 关 系 通 过 16.8 亿 的 网 页 文本 和 两 年 的 Microsoft Bing 搜 索 
日 志 获 取 。[ion 中 的 信息 以 (c, e, W) 的 形式 表示 ， 其 中 c 为 上 位 词 ，e 为 下 位 词 ，(c，e) 表示 一 对 上 位 词 - 下 位 词 关系 ， 如 


(country, USA) 。W 表 示 一 个 概率 得 分 的 集合 。W 中 的 两 项 最 重要 的 得 分 为 典型 度 (typicality) P (elc) ， 即 e 之 于 c 的 典型 
HE; FOP (cle) ， 即 c 之 于 e 的 典型 性 。 这 两 项 得 分 都 通过 频率 估计 ， 如 下 式 : 


N... ain isA extraction 
Pr. Ce | 0) = —— — 


N.inisA extraction 

HAN () 表示 词 乙 间 的 共 现 次 数 。 例 如 ，“Microsoft is a company" FP "Microsoft" 7j3cfse, "company" Alfie 
c。 本 章 将 实体 和 概念 统称 为 词 。 总 而 言 之 ，Probase 具 有 如 下 特性 : 

- Ptobase 提 供 了 一 个 非常 大 的 概念 空间 ， 包 括 多 达 270 万 的 概念 。 


Probase 不 是 一 个 树 状 的 分 类 架构 ， 而 是 一 个 语义 网 络 : 一 个 实体 或 子 概念 可 能 隶属 多 个 概念 。 例 如 ， 词 banana 同 概念 


fruit、ttee 等 概念 均 相 连 。 其 优点 在 于 词 之 间 的 联系 是 基于 数据 的 而 不 是 人 工 标注 的 。 
- 每 对 isA 关 系 均 附 有 条 件 概率 P (elc) 和 P (cle) ， 即 典型 度 得 分 。 
在 为 两 个 词 之 间 的 相似 度 计 算 建 模 前 ， 可 以 首先 看 看 哪些 启 有 相同 的 含义 。 直 党 上 ， 下 列 类 型 的 词 应 具备 较 高 相似 度 : 
同义词 : ge 和 general electric; corpotration、firm 和 company。 
拼写 方式 不 同 但 意思 相同 的 词 : 2d barcode 和 2d bar code. 
. 单 / 复 数 词 : shoe 和 shoes。 


本 章 方 法 通过 两 个 步骤 来 解决 这 几 种 类 型 词 的 相似 度 ， 首 先 使 用 可 用 资源 (如 Wikipedia 重 定向 、 内 部 链接 和 WordNet 中 
的 同义词 集合 ) 将 同义词 分 组 。 然 后 ， 通 过 编辑 距离 (edit distance) 函数 来 度量 词 的 距离 : 
EditDistance(t, sts) 


d uut, t2) = 
le l : MaxLengthtr, st) 


如 果 dlex (t4, t2) < 中 ， 则 这 对 词 具 有 相近 的 词 表 形式 ， 将 被 分 为 一 组 。 基 于 编辑 距离 的 方法 十 分 简便 上 且 结 果 与 中 高 度 相 
关 。 中 的 值 越 小 ， 产 生 的 结果 越 准 确 。 本 节 通 过 经 验 主 义 将 中 值 设 定 为 0.05。 基 于 这 一 数值 ， 鉴 别 同 义 词 对 的 准确 率 可 达 959%6。 

至 此 ， 所 有 同义词 被 分 为 同一 聚 类 ， 类 比 于 WordNet 中 的 同义词 集合 。 作 为 结果 ， 词 之 间 的 isSA 关 系 被 映射 为 同义词 聚 类 之 
间 的 isA 关 系 。 下 文 将 用 [ssyn 表 示 词 与 其 所 属 的 词 聚 类 之 间 的 映射 天 系 。 当 计算 两 个 属于 同一 聚 类 的 词 的 相似 度 时 (如 general 
electric 和 ge) ， 二 者 的 相似 度 被 赋予 最 高 得 分 1。 


[1] Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding | C] .Proceedings of the 2012 ACM 


SIGMOD International Conference on Management of Data. ACM, 2012: 481-492. 


63 ”基本 方法 


本 节 描 述 计算 词语 义 相似 度 的 基本 框架 。 简 而 言 之 ， 给 出 一 对 词 (ty, to) ， 方 法 首先 决定 两 个 词 的 类 型 (实体 或 概念 ) ， 
然后 获取 二 者 的 语 境 上 和/ ，， 最 后 两 个 词 的 相似 度 被 计算 为 二 者 语 境 的 相似 度 : 


SImGCiilytiz) —simCT, .1,,) (6. 1) 


其 中 sim () Aaa BUT Aa. 


6.3.1 ”类 型 判别 


计算 词语 义 相 似 度 的 一 个 基本 步骤 在 于 判别 词 的 类 型 ， 即 其 属于 概念 还 是 实体 。 类 型 判别 需要 从 语义 网 络 获取 如 下 数据 : CD 
概念 和 实体 集合 ; @ 词 乙 间 的 iSA 关 系 以 及 在 文集 中 出 现 的 频率 。 如 果 给 出 的 词 对 和 存 有 isA 关 系 ， 那 么 天 系 中 的 上 位 词 被 称 作 概 
念 ， 下 位 词 被 称 作 实体 。 人 否则 ， 每 个 词 的 类 型 被 分 别 确定 ， 即 奋 某 词 在 TisA 中 作为 上 位 词 出 现 的 概率 比 作 为 下 位 词 的 概率 高 ， 则 
其 被 鉴 定 为 概念 ， 反 之 则 被 鉴定 为 实体 。 上 述 类 型 葵 定 方法 可 在 文本 语 境 未 给 出 的 情况 下 使 用 。 倘 若 文 本 语 境 已 知 ， 则 可 以 使 用 
概念 化 中 来 判别 词 的 词义 。 比 如 ， 通 过 “Apple，Microsoft and Google are World’ s most valuable brands” 这 一 语 境 可 
以 推出 “apple，microsoft” 这 对 词 的 概念 为 Company。 这 一 概念 化 的 方法 在 第 4 章 已 经 讨论 过 。 本 章 只 考虑 无 文本 语 境 情况 
下 的 词 相似 度 计 算 。 
[|] Song Y, Wang H, Wang Z, et al.Short Text Conceptualization Using A Probabilistic Knowledgebase [C] .International Joint 


Conference on Artificial Intelligence, 2011: 2330-2336. 


6.3.2” 语 境 表示 


在 本 章 的 方法 中 ， 词 的 语 境 通过 其 类 型 以 及 在 语义 网 络 中 的 位 置 获 取 。 如 果 词 为 概念 ， 则 它 的 语 境 为 其 包含 的 所 有 实体 。 如 
果 词 为 实体 ， 则 它 的 语 境 为 其 隶属 的 所 有 概念 。 进 而 ， 语 境 被 表示 为 向 量 | 或 le， 同 量 中 的 每 个 维度 为 词 与 词 之 间 的 典型 度 得 
分 。 可 见 ， 访 万 法 需要 下 述 数据 : @ 每 个 实体 e 所 隶属 的 所 有 概念 ; @ 每 个 概念 c 所 包含 的 所 有 实体 ; @ 每 对 实体 概念 的 两 项 典 


型 度 得 分 (概念 之 于 实体 的 典型 度 和 实体 之 于 概念 的 典型 度 ) 。 


通过 上 述 数 据 ， 向 量 | 或 le 可 被 表示 为 : 
I. Cu.» uu) (6. 2) 
其 中 wi=p (elc) , p (elc) 为 概念 < 之 于 实体 eI 的 典型 度 得 分 ， 即 e 在 所 有 c 包 含 的 实体 中 有 多 么 典型 
I, =w ssw? (6. 3) 


其 中 w;=p (cile) , p (cile) 为 实体 e 之 于 概念 的 典型 度 得 分 ， 即 ci 在 所有 e 隶 属 的 概念 中 有 多 么 典型 。 


6.3.3 ” 语 境 相似 度 
两 个 语 境 的 相似 度 通过 相似 度 消 数 F(*) 度量 : 
simCI, ola) SET, 1) (6. 4) 


HrHF () 表示 任 一 相似 度 计 算 国 数 ， 比 如 cosine 相 似 度 和 Jaccard 相 似 度 。 算 法 6.1 罗 列 了 基本 方法 的 完整 步骤 。 


算法 6. 1 基本 方法 


输入 : (tis t2): 词 对 。 
Du: 包含 IA 关系 的 语义 网 络 。 
Das: 在 TisA 中 的 同义词 集合 。 
maxD; HATER A, 
输出 (ti ，z2) 的 相似 度 值 。 
l: if £i 和 ts 属于 相同 的 同义词 集合 Dus then 
2: 设置 sim(il ，tz)<-1， 并 且 return simi, t2); 
3; end if 
4; 判断 每 个 词 的 类 型 ; 
: if(t1，t2) 是 一 个 概念 对 then 


6. 根据 式 (6.2), 使 用 Di EI c; 的 实体 向 量 I'i (i€ {1, 2}); 


C 


7: 根据 式 (6. 4)，return simCI^ . I^) 

8: end if 

9; if(t1, t2) — KEX} then 

10; 根据 式 (6.3)， 使 用 Da ÆR t 的 概念 向 量 I5 G€ l1. 2); 

11: 根据 式 (6.4) simCI^ ，T2 ) ; 

12; end if 

13: f(t1，tz) 是 一 个 概念 -实体 对 then 

14: 从 Tisa 中 收集 实体 词 c; 的 topK 个 概念 作为 上 下 文 C, (i € (1. 20; 
15. for 每 一 个 属于 C, 的 c,(c, 5t; . ij. 1 二 x 二 topK )do 

16: 迭代 计算 (迭代 深度 不 大 于 maxD)c, Mt: 的 相似 度 ， 并 保存 到 sim, 
17; end for 

18; return max, € C, isim, }3 


19. end if 


6.3.. 讨论 


急 步 度量 表明 上 述 基 本 方法 在 词 相似 度 度量 上 表现 民 好 ， 但 对 于 包含 歧义 的 词 (如 apple 和 orange) 结果 差强人意 。 如 表 6- 


1 所 示 ， 基 本 方法 检测 到 (microsoft, apple) 以 及 (apple, pear) 较为 相似 , 而 (apple, microsoft) 和 (orange, red) 
则 不 相似 。 这 是 由 于 apple 和 orange 都 具有 多 重 语义 。 表 6-1 展 示 了 几 个 词 中 概率 大 于 0.05 的 词义 。 从 中 可 以 看 出 apple 和 
orange 的 主导 词义 为 fruit。 当 使 用 非 主 导 词 义 进行 相似 度 度量 时 ， 结 果 有 待 提 高 。 


表 6-1 歧义 对 相似 度 的 影响 (S.S.= 相 似 度 得 分 ) 


词 对 T : 主要 词义 概率 


microsoft 


company 0. 825 


search engine 9.525 


company 0. 342 
fruit 0. 441 


company 0. 235 


apple 


(microsoft. google) 
food 0. 104 
(apple. pear? 
tree 0. 068 
(apple. microsoft? 
fruit 0. 856 
(orange. red) pear 


tree 0. 120 
fruit 0. 456 
orange color 0. 293 
food 0. 078 


red color 0. 926 


4 


6.4 ”改进 万 法 


基本 方法 对 于 具有 多 重合 义 的 词 不 够 敏感 。 一 个 简单 的 解决 方案 是 使 用 已 知 的 含有 词义 标签 的 知识 库 (如 WordNet) 进行 
辅助 。 然 而 这 些 知 识 库 的 词 履 芒 率 十 分 有 限 。 因 而 ， 本 证 提出 一 种 改进 方法 。 


给 出 一 个 词 ， 定 义 概 念 语 境 为 Probase 中 该 词 所 隶属 的 概念 集合 。 改 进 方 法 使 用 概念 聚 类 来 实现 目 动 语义 消 收 ， 从 而 排除 无 
关 的 概念 聚 类 以 实现 算法 优化 。 最 终 ， 两 个 词 的 语义 相似 度 被 定义 为 两 个 词 的 任意 一 对 词义 的 最 高 相似 度 。 下 文 将 详细 介绍 这 一 
改进 万 法 。 


为 自动 识别 词 的 多 重 语义 ， 本 节 使 用 改进 的 k-Medoids 方 法 对 概念 语 境 进行 聚 类 ， 然 后 使 用 每 个 概念 聚 类 中 的 中 心 概念 来 
代表 词 的 语义 。Kk-Medoids 方 法 有 以 下 优势 。 首 先 , kK- 系列 聚 类 方法 简单 有 效 。 其 次 ,与 k-Means、k-Medians 或 KkK-Modes 方 
法 不 同 ，k-Medoids 可 以 得 到 准确 的 聚 类 中 心 ， 即 每 个 聚 类 拥有 一 个 已 知 概念 代表 其 中 心 。 


图 6-2a 展 示 了 apple 在 Probase 中 的 概念 语 境 ， 图 6.2b 则 描绘 了 概念 聚 类 。 每 个 聚 类 代表 了 一 个 词义 。 


frult 
Seasonal frult 
tree frult 


company 
manufacturer 
large company 


company snack 
seasonal fruit healthy snack 


food large company 
fruit tree tree fruit | 
manufacturer deciduous tree : 

| 


9 


| | | 
站 4 | food | | tree ! 
| snack . : fruit tree | 
| healthy snack  ! | deciduous tree | 
lxx | 
MEN E 
a) b) 
图 6-2 apple 的 概念 语 境 
下 面 将 介绍 距离 度量 和 聚 类 方法 。 
IE 
首先 将 两 个 概念 的 语义 聚 类 定义 如 下 : 
ER (6. 5) 


其 中 人 表示 c 的 实体 分 布 ， 同 式 (6.2) 中 的 定义 相同 . 


本 节 所 用 聚 类 方法 为 修改 版 的 k-Medoids 聚 类 方法 ， 通 过 实体 分 布 将 概念 分 组 。 好 的 聚 类 中 心 初始 值 对 这 一 聚 类 的 成 功 与 
否 至 关 重要 。 因 此 ， 本 方法 使 用 Moorel1 所 提出 的 算法 来 鉴别 最 优 的 初始 化 中 心 。 首 先 ， 第 一 个 medoid ( 聚 类 中 心 ) 被 从 候选 
的 概念 点 中 随机 选取 。 进 而 ， 下 一 个 medoid 按 下 式 从 现存 的 medoids 中 选取 : 


m=c; | maximinid sem M; pS? 290 (6. 6) 


C; 1 
J 


其 中 c 是 和 岳 个 候选 点 ，mi 是 第 i 个 现存 的 medoid，a 是 初始 medoid 计 数 的 阅 值 。 整 个 过 程 重复 至 无 法 找到 符合 式 (6.6) 的 


medoid。 在 这 种 情况 下 ， 在 第 0 次 迭代 中 将 得 到 k 个 medoid: M — mis cns mis, 显然 ，a 越 大 Kk 越 小 


对 于 在 第 t 次 迭代 中 得 到 的 k 个 medoid， 每 个 候选 概念 被 分 配 到 最 近 的 medoid， 即 与 c 忠 离 最 近 的 medoid m*: 


m =argminy;em'd c; m) (6.7) 


当 所 有 候选 概念 被 分 配 至 对 应 的 概念 聚 类 ，medoid 可 做 更 新 为 最 中 心 的 概念 点 。 为 寻求 此 中 心 ， 一 个 聚 类 内 词 的 平均 距离 
锌 计算 为 : 


tt+1 . d sem (c x € y ) 
Mm; =argmin, ex; 3 — ET RN (6. 8) 
| c €Ki K, | 


整个 聚 类 过 程 迭 代 至 下 式 最 小 : 


k n 
F(W,M) = ») >) wid On, (€; ) (6. 9) 


i=l j=1 


Die 
Zad 


w.&{0, 1}, wi=l,0< >)" wi<n, k(<n)s VK 、 SEZ we = 
其 中 7s ibi ”为 已 知 中 心 数 ，n 为 聚 类 中 的 概念 数 。W= [wi] 是 一 个 kxn 的 二 元 矩 
阵 ，M= [m4, .., my] 表示 聚 类 medoids 的 集合 ，m 表 示 第 i 个 聚 类 的 medoid.。 


式 (6.8) 被 用 来 计算 medoid 集 合 M。M 确 定 后 ,使 F(W，M) 最 小 化 的 W 为 : 
| ] 3H JR d gem (mi56;) « dea ms sc;) 
w; =< (l1 hx Reh 351) (6. 10) 
0 其 他 


收敛 条 件 为 F (Wt, Me) -F (Wt, Mt) 小 于 某 个 阔 值 58 (如 10 ->) 。 基 于 上 述 k-Medoids 聚 类 ， 可 以 得 到 包含 所 有 概 
念 的 k 个 概念 聚 类 。 对 F 的 约束 优化 问题 为 不 可 判定 的 约束 非 线 性 优化 问题 。 算 法 6.2 给 出 对 M 和 W 的 局 部 优化 方法 。 


算法 6.2 概念 聚 类 


痊 入 :C 一 {cl,… cj) :概念 集合 。 
Qa: 与 初始 medoid BCFA KAN PAE 
T: 最 大 迭代 次 数 。 
PisA :包含 IsA 关系 的 语义 网 络 。 
输出 sk RRK, Kaer} o 
1. 初始 化 迭代 计数 天 上 一 0; 
2. 根据 式 (6.6) 生 成 初始 化 的 medoid 集合 M' — [m «mb smi]; 
3. 根据 式 (6. 7) ,将 每 一 个 概念 c; 分 配 到 某 一 个 聚 类 K * (其 medoid X m * ); 
4. 根据 式 (6. 10) ,更 新 权重 矩阵 Wi, 确保 FCW! 6M‘) dete) ; 
5. 根据 式 (6. 8) ,更 新 MO! 中 的 聚 类 medoid; 
6. 根据 式 (6. 9) ,计算 FCW . M! 15; 
7. if FW! , M! 30D — E(QW! , M‘)>6é Ht<T then 
8. t=t+1, JF ETE SI ZP JR 3; 
9. end if 


10. return ®2{K,.°°.K;}; 


k-Medoids RX AEREO (kn?) ， 其 中 为 中 心 个 数 ，n 为 每 个 聚 类 中 的 概念 数 。 为 改进 效率 ， 语 义 网 络 中 所 有 概 
念 的 聚 类 被 离线 完成 。 当 在 线 计算 时 ， 每 个 词 的 概念 可 以 被 快速 映射 到 某 个 离线 计算 的 聚 类 ， 这 一 方法 使 在 线 聚 类 的 复杂 度 降 低 
JJO (n). 


为 将 语义 网 络 的 概念 聚 类 ， 最 沅 行 的 k 个 概念 优先 航 分 为 K 个 概念 聚 类 ， 然 后 剩余 的 概念 按 式 (6.5) 归 入 相应 的 聚 类 中 。 最 
后 ， 上 述 过 程 被 迭代 进行 至 满足 约束 条 件 。 在 聚 类 中 ， 实 体 分 布 令 用 来 表示 某 一 概念 和 计算 概念 之 间 的 相似 性 。 根 据 概 念 和 实体 
间 的 isA 关 系 ， 一 个 概念 和 实体 的 二 分 图 被 构建 (如 图 6-3 所 示 ) ， 概 念 聚 类 基于 此 图 完成 。 其 基本 思想 是 如 果 两 个 概念 拥有 很 多 
相同 实体 ， 那 么 它们 语义 相近 。 根 据 二 分 图 ， 每 个 概念 ci 被 表示 为 一 个 L2 正 则 化 的 向量， 如 式 (6.2) 所 示 ， 每 个 维度 对 应 二 分 
图 中 的 一 个 实体 。 


图 6-3 ”概念 实体 二 分 图 


虽然 概念 和 实体 的 结 点 数目 十 分 庞大 ， 上 述 二 分 图 实际 上 非 单 稀 跑 。 例 如 ， 每 个 概念 平均 只 与 2.72 个 实体 相连 ， 每 个 实体 平 
均 也 只 与 几 个 概念 相连 。 因 此 ， 对 某 一 概念 c， 与 其 拥有 相同 实体 的 概念 集合 Sc 并 不 大 。 当 为 c 找 寻 最 近 的 概念 聚 类 时 ， 只 需 检查 


包含 Sc 中 概念 的 那些 聚 类 。 在 本 章 万 法 中 ， 每 个 概念 只 属于 一 个 概念 聚 类 ， 因 此 忆 的 检查 数 很 小 。 不 仅 如 此 ， 二 分 图 中 权重 (ER 
型 度 ) 很 小 的 边 很 可 能 为 噪声 ， 因 而 可 被 忽略 。 


[1] Moore A.An Introductory Tutorial on Kd-trees | J/OL ] .http://www.ri.cmu.edu/publication_view.html? pub_id=2818.1991. 


6.4.2 ”Max-Max 相 似 度 计算 方法 


在 基本 方法 中 ， 两 个 词 的 相似 度 通 过 某 一 相似 度 函数 基于 二 者 语 境 进 行 计算 。 在 改进 方法 中 ， 三 种 相似 度 计算 方法 被 探究 
即 最 大 (max) 、 平 均 (average) 和 加 权 (weighted) 相似 度 。 假 设 isA 关 系 [isA 中 所 有 概念 的 聚 类 为 K={K1，.……，KIH，“ “和 
“ “分别 为 两 个 词 所 属 的 概念 集合 ， 则 ““ 和 和““ 中 的 概念 聚 类 ^ “和 人 “分 别 为 : 


K, ={x |x=K; [| sup(t1), YK:EK Ax 3552) 
Ko ={y | y =K; N supt), VK, € K ^ y z 
其 中 sup (ti) ={c| (c, ti) ETisA。 那 么 ， 两 个 词 的 相似 度 可 航 计算 为 二 者 所 属 聚 类 对 之 间 的 语 境 相似 度 : 
Max: sim(T,,, T,,)=Maxyex, ,yer,, VF (x, y)) 
Average: sim(T, , T,,)=1/ | Kin | ix yEKa F (xs Y) (O LE) 
Weighted: sim(T,,, T, ) = Dene Kn Wsu, € Kauw,F (x, y) 


di 


zx We 7 s mm d — 3 TNLLIOM RANT S > E — 每 
sts Kin KK, ， ws 二 v/sex ws， 并且 wy 一 V/sexisv:， 对 应 的 x (或 y) 向 量 中 的 值 表 示 t (t) 和 每 


个 sup (t4) (Bksup (t2) ) 中 的 概念 的 典型 度 得 分 ，vx (或 vy) 表示 典型 度 得 分 在 对 应 向 量 中 的 和 |。 


使 用 离线 聚 类 得 到 的 概念 聚 类 和 改进 的 基于 概念 聚 类 的 相似 度 度 量 ， 整 个 改进 算法 如 算法 6.3 所 示 。 


算法 6.3 改进 方法 


输入 : 


输出 : 
. 根据 算法 6.1 中 的 步骤 1 一 4， 进 行 同义词 检测 和 类 型 检测 ; 
: if(t1，tz) 是 一 个 概念 对 then 


(tis t2): WX, 

Tisa: 包含 IsA 关系 的 语义 网 络 。 
了 syn: Æ Disa 中 的 同义词 集合 
Dauer: TE Dia 中 的 概念 聚 类 。 

maxD: 最 大 迭代 次 数 。 

(tis t2) AY AAD REE 


根据 算法 6. 1 的 步骤 6 一 7，return simCI? . I7 


—— 
“we 


: end if 


: iflt1，t2) 是 一 个 实体 对 then 


根据 算法 6. 1 R92E UR 10—11. si-—simCI? . I7); 
从 Eiei 找到 上 上 下文 K, 和 K,, 的 聚 类 ; 
根据 式 (6. 11) TF HG BI soxsim(K, . K, » 


return max(s1, s2); 


. end if 


: if(ii，ti2z > 是 一 个 概念 -实体 对 then 


从 Tisa 中 收集 实体 词 i; 的 概念 作为 其 上 下 文 C,, (i € 11. 2}) 
从 Tauser 找到 上 下 文 的 聚 类 K， 
for K， 中 的 每 一 个 聚 类 x do 
选择 topK 个 概念 来 作为 1; 的 表示 ， 即 
Ce" ={cy | cy 7t; cy € x, 1&y&topK); 
for Cr” 的 每 一 个 概念 c, do 
迭代 计算 (和 迭代 深度 不 大 于 maxD)cy foi; 的 相似 度 ， 并 保存 到 sim, 


end for 


end for 


return 根据 式 (6. 11) 计 算得 到 的 相似 度 值 


. end if 


6.4.3” 聚 类 删 减 优化 


同 基本 方法 相 比 ， 改 进 方法 大 幅度 优化 了 词 相似 度 度量 的 准确 性 ， 然 而 疝 存 两 点 不 足 。 首 先 ， 最 大 相似 度 函 数 倾 向 于 夸大 非 
主导 词义 被 选中 的 概率 。 这 是 由 于 小 的 概念 聚 类 在 此 函数 下 差异 较 小 ， 从 而 主导 了 最 大 相似 度 得 分 。 然 而 ， 很 多 小 的 概念 聚 类 实 
为 噪声 ， 这 会 导致 不 正确 的 相似 度 度量 。 再 者 ， 在 目前 的 概念 聚 类 中 ， 某 些 词 不 仪 有 一 个 广义 的 词义 ， 还 有 一 些 具 体 的 词义 。 例 
如 ，lunch 具 有 具体 词义 dish 和 广义 词义 activity。 众 所 周知 ，activity 是 一 个 很 广泛 的 词义 ， 它 会 致使 不 相关 的 词 相 似 。 例 如 ， 
词 music 也 拥有 activity 这 个 词义 ， 因 而 算法 会 误 认 为 其 与 junch 相 近 。 


为 解决 上 述 问 题 ， 可 以 采用 概念 聚 类 删 减 的 方法 。 首 先 ， 为 减少 噪声 ， 只 包 合 一 个 元 素 或 权重 很 小 的 概念 聚 类 被 删除 。 某 一 
概念 聚 类 的 权重 计算 方法 如 下 。 设 词 t 的 概念 聚 类 为 K-= {K1，.…，Km}， 其 中 某 一 概念 聚 类 Ki 的 权重 被 计算 为 /Zivi， 其 中 
—_ (ct) 且 1<is<m。 接 下 来 ,为 避免 模糊 词义 的 影响 ， 包 含 广 泛 词 义 的 聚 类 被 删 减 。 例 如 ， 图 6-4 展 示 了 概念 聚 类 后 

叶 到 的 天 于 Ilunch 和 music 的 词义 的 isSA 天 系 层 级 结构 。 由 于 词义 activity、cost、interest 和 art 都 是 dish 和 multimedia 的 广义 概 
念 ， 它 们 将 被 删除 ， 最 终 只 有 具体 的 词义 (如 dish 和 multimedia) 将 被 保留 。 


MM nm i | 模糊 的 词义 m 


e art emu eR EE m 4 


| | 

[mx ]| | [edvty] [interest ] 

um | I SA | 

TI 

L-----4--------4----- | MEE ISA J 
dish multimedia 


具体 的 词义 


[o 
Clunch > Cmusic 7 


图 6-4 ” 词 Ilunch 和 music 的 模糊 词义 和 有 具体 词义 


65 ”相关 工作 


本 节 将 介绍 词语 相似 度 计 算 的 相关 工作 。 与 代表 了 更 为 广泛 关系 (如 全 局 整体 关系 和 共 现 关系 ) 的 语义 相关 度 不 同 ， 语 义 相 
似 度 通 过 上 下 位 词 和 同义词 关系 来 稀 量词 概念 之 间 的 相似 度 。 


语义 相似 度 的 度量 对 很 多 网 页 应 用 至 关 重 要 ， 如 网 页 信息 分 析 (J 和 查询 扩展 | 站 。 现 有 的 计算 语义 相似 度 的 方法 主要 有 两 类 : 
第 一 种 方法 通过 现 有 的 辞典 、 分 类 架构 和 百科 全 书 来 计算 语义 距离 ， 在 这 一 领域 更 多 的 方法 使 用 WordNet 中 的 isA 语 义 关系 网 


络 ; 第 二 种 方法 依赖 大 型 文集 (如 网 页 文本 和 搜索 片段 ) 来 计算 词 的 语 境 相似 度 。 下 文 将 着 重 介绍 这 两 种 方法 的 相关 工作 。 


1. 基 于 知识 的 方法 


大 多 数 基于 知识 的 相似 度 计算 方法 使 用 分 类 架构 ， 如 WordNet 中 的 语义 树 级 结构 。 最 为 直接 的 计算 方式 是 基于 路 径 的 方 
法 中 。 这 一 方法 十 分 简单 但 准确 率 较 低 。 这 是 由 于 它 忽略 了 概念 后 的 隐藏 信息 。 更 为 先进 的 方法 向 Pjloll JI 使 用 词 的 信息 内 容 
(Information Content, IC) 来 计算 词 相 似 度 。 同 时 ， 一 些 研 究 使 用 基于 WordNet 的 图 算法 来 计算 词 相 似 度 ， 如 根 权 重 算 
法 品 和 WordNet 排 序 算法 [10]. 


上 述 基于 知识 的 方法 十 分 依赖 于 分 类 架构 和 外 部 文集 的 完整 性 。 然 而 ， 即 便 是 最 流行 的 分 类 架构 WordNet 也 只 有 有 限 的 覆 
兰 率 ， 且 更 新 速度 无 法 跟 上 新 词 产 生 的 节奏 。 本 章 提 出 的 方法 同样 是 基于 知识 的 ， 但 其 更 为 有 效 且 扩展 性 更 强 。 这 是 由 于 : Qs 
章 使 用 的 知识 从 整个 网 络 中 获取 ; @ 本 草 使 用 的 相似 度 计 算 方 法 可 以 目 动 检测 词 的 词义 并 选择 最 为 恰当 的 词义 进行 计算 。 所 有 上 
述 的 算法 框 染 均 无 法 与 Probase 结 合 ， 因 为 Probase 不 存在 树 形 结构 。 


2. 基 于 文集 的 万 法 


所 有 基于 文集 的 相似 度 计 算 方 法 使 用 文献 中 的 统计 信息 来 计算 词 相 似 度 。 根 据 语 境 表示 方式 的 不 同 ， 该 方法 可 分 为 两 类 : 分 
布 模型 (distributional model) 和 基于 特征 的 模型 (feature-based model) 。 下 文 分 别 将 二 者 称 作 分 布 语言 相似 度 计算 方法 
和 基于 特征 的 相似 度 计 算 方 法 。 


分 布 语言 相似 度 计 算 方法 的 代表 工作 如 下 。ldo 等 人 [1] 提 出 基于 分 布 语言 相似 度 的 概率 词 联合 模型 ， 用 于 单词 消 歧 . 
Toutanova 等 人 [< 提出 马尔 科 夫 链 模 型 ， 模 型 的 平稳 分 布 用 以 估计 单词 概率 。Rohde 等 人 [3 提出 一 个 新 的 向 量 空间 模型 ， 通 
过 大 型 文集 获取 单词 含义 。Mohammad 和 Hirst[ 入 提出 了 通过 分 布 度量 单词 共 现 来 推出 概念 间 的 聚 类 。Kazamal >| 等 人 提出 使 
用 贝 叶 斯 方法 来 计算 健全 的 分 布 单词 相似 度 。Piitulainen[1 |] 提出 一 种 基于 语法 决定 的 共 现 和 频率 的 方法 ， 来 大 规模 计算 芬兰 报 
纸 中 名 词 的 相似 度 。 


上 述 方法 旨 在 准确 计算 词 相似 度 ， 但 通过 分 布 模型 得 到 的 表示 方式 没有 认 知 和 行为 依据 ! /]。 因 此 ， 许 多 基于 特征 的 语义 表 
示 方 法 被 提出 。Chen 等 人 [提出 通过 重复 检查 搜索 片段 中 的 词 频 来 计算 词语 义 相似 度 。Cilibrasi 和 Vitanyi 3 提出 通过 搜索 引 
擎 获取 的 网 页 数量 来 计算 词 相似 度 。Bollegala 等 人 [| 提出 一 种 新 的 基于 搜索 的 相似 度 度量 方式 。 上 述 方法 虽 可 轻易 获取 搜索 片 
段 和 结果 作为 文集 ， 但 耗 时 较 大 。 这 是 由 于 搜索 片段 和 结果 需要 在 线 获取 ， 且 需要 通过 解析 来 获取 文本 。 此 外 ，Radinsky 等 
人 [1 提出 一 种 暂 存 语义 解析 (TSA) 的 方法 来 获取 文集 中 的 暂 存 信息 。 在 TSA 中 ， 每 个 概念 被 表示 为 暂时 有 序 的 文档 的 时 间 序 
列 。 这 一 方法 可 改进 PCC， 但 需要 大 量 历史 数据 。 


忌 之 ， 上 述 基 于 文集 的 方法 更 适用 于 计算 语义 相关 度 而 不 是 相似 度 ， 因 为 该 方 法 大 量 使 用 词 与 词 的 共 现 信息 来 表示 词 向 量 。 
同时 ， 基 于 文集 的 万 法 对 某 些 语言 不 适用 。 
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6.6 小 结 


本 草 介绍 了 一 种 高 效 准 确 的 词 相似 度 计算 方法 。 访 方法 使 用 通过 网 页 文本 获取 的 isA 语 义 关 系 网 络 来 提供 词 的 语 境 ， 进 而 使 
用 概念 聚 类 算法 为 词 消 卜 ， 最 终 使 用 最 大 相似 度 消 数 来 计算 相似 度 。 大 量 实验 证 明 改 进 的 基于 聚 类 的 算法 可 在 词 对 皮尔 逊 相 关系 


数 度 量 上 给 出 最 好 的 结果 ， 该 万 法 非常 高 效 且 可 锐 应 用 于 任何 大 规模 的 数据 集 。 在 未 来 ， 我 们 将 探索 如 何 把 该 方法 应 用 于 短文 分 


第 7/ 章 ， 基 于 概念 化 的 海量 碗 从 关键 子 匹配 


搜索 广告 是 搜索 引擎 的 主要 收入 来 源 。 广 告 商 以 天 键 子 对 他 们 的 广告 竞价 ， 而 搜索 引擎 在 竞价 关键 字 基 础 上 通过 匹配 用 户 坦 
询 进行 相 天 广告 推送 。 由 于 得 询 和 竞价 关键 字 都 是 短文 本 并 且 不 能 由 标准 的 词 袋 方法 建 模 ， 大 部 分 现 有 方法 是 利用 用 户 行 为 数据 
(Wachee. Shee) 去 填补 在 匹配 竞价 关键 字 与 用 户 查 询 上 的 语义 差距 。 然 而 这 种 方法 却 不 能 处 理 没 有 很 多 用 户 行为 数 
据 的 长 尾 吾 询 。 尽 管 它 特殊 罕见 ， 长 尾 得 询 整体 上 却 占 据 相 当 大 的 得 询 量 并 且 是 搜索 引擎 收入 的 一 个 重要 来 源 。 本 章 提 出 了 一 种 
匹配 查询 和 竞价 关键 字 的 新 方法 。 利 用 概率 分 类 和 大 型 同 现 网 络 ， 把 短文 本 概念 化 成 一 组 相关 概念 。 为 了 处 理 大 量 但 询 和 海量 关 
键 字 ， 创 建 概念 的 语义 这 引 : 通过 测量 它们 在 概率 空间 的 相似 度 ， 对 于 给 定 的 理 询 选择 相 天 的 竞价 天 键 字 。 通 过 基于 3000 万 碍 
询 和 7 亿 竞 价 天 键 字 的 一 系列 实验 ， 证 明了 本 章 方法 的 有 效 性 。 


搜索 广告 主要 是 匹配 与 搜索 查询 相关 的 广告 。 每 个 广告 特征 由 一 系列 代表 它 的 竞价 关键 字 呈 现 出 来 。 如 果 匹 配 选 项 是 精确 匹 
配 ， 给 定 的 查询 与 其 中 一 个 竞价 关键 字 相 同 ， 这 个 广告 就 有 机 会 被 触发 。 另 一 个 选项 是 主流 搜索 引擎 默认 提供 的 智能 匹配 ， 在 这 
种 情况 下 ， 搜 索引 警 展示 与 给 定 查询 语义 相关 的 广告 。 智 能 匹配 可 以 将 大 量 流量 导向 广告 [和 j。 但 是 在 大 多 数 情况 下 ， 相 比 精确 匹 
配 这 种 流量 缺少 针对 性 。 因 此 ， 好 的 智能 匹配 算法 是 搜索 广告 成 功 的 关键 。 


智能 匹配 颇具 挑战 性 ， 因 为 查询 和 竞价 关键 字 都 非常 短 (平均 长 度 在 2.4 到 2.7 个 字 之 间 由 ) 。 因 此 ， 基 于 语法 相似 度 的 匹配 
召回 率 非常 低 (仅仅 309 到 40% 的 搜索 查询 被 广告 结果 履 盖 ) 3。 为 了 解决 这 种 单词 不 匹配 的 问题 ， 匹 配 必须 是 基于 语义 的 。 
主题 模型 Pb 展示 了 语义 的 潜在 主题 分 布 。 它 们 对 正常 文档 的 语料库 是 有 用 的 ， 但 是 查询 以 及 竞价 关键 字 太 短 而 不 能 提供 统计 学 
上 有 意义 的 信号 。 一 个 更 有 效 的 方法 是 用 额外 的 外 部 知识 增加 查询 ， 如 用 户 行为 数据 LS 中 I。 但 是 这 种 方法 仅仅 对 热门 查询 有 
效 ， 不 适合 处 理 有 很 少 或 没有 用 户 历史 行为 数据 的 长 尾 查询 。 不 幸 的 是 ， 长 尾 查询 (Tail queries) 虽然 单 次 查询 量 很 少 ， 但 是 
它 整体 上 的 查询 量 仍然 是 所 有 查询 的 一 个 重要 组 成 部 分 101。 


为 了 处 理 长 尾 查 询 ， 可 以 使 用 概念 八 (bag-of-concepts) 来 表示 长 尾 查 询 的 语义 。 这 种 思想 启 友 于 基于 一 组 Wikipedia 的 
概念 〈 即 Wikipedia 页 面 的 标题 ) 来 模型 化 文本 片段 的 语义 的 方法 (ESA) 【11。 尽 管 ESA 提 出 了 一 种 文本 理解 的 思路 ， 但 在 
Wikipedia 的 概念 (文章 标题 ) 和 人 类 精神 世界 1 的 清晰 概念 中 仍然 存在 着 很 大 鸿沟 。 另 外 ， 基 于 概念 层次 L1 引 的 方法 很 大 程度 
上 依赖 于 所 采用 的 概念 层次 的 质量 和 覆盖 面 ， 而 Wikipedia 的 概念 空间 是 有 限 的 〈 约 111654 个 概念 0 及) 。 因 此 ， 本 书 采用 Web 
规模 数据 驱动 的 知识 库 ， 如 Probasel1?| 或 Yagol10。 另 一 个 影响 因素 是 将 文字 片段 映射 到 它们 相关 概念 上 的 精度 (本 书 称 之 为 
概念 化 )【  。ESA 的 概念 化 是 基于 文本 片段 和 Wikipedia 文 章 之 间 词 的 共 现 。 原 始 词 和 产生 的 概念 之 间 的 关系 可 以 视 为 弱 isA 关 
系 ， 因 为 Wikipedia 文 章 中 的 大 部 分 高 频 词 和 文章 标题 没有 isA 关 系 。 当 输入 的 文本 片段 非常 短 时 ， 弱 isA 是 不 可 靠 的 ， 这 就 导致 
ESA 常 常会 将 文本 关联 到 无 关 的 概念 上 。 


为 了 精确 地 概念 化 短文 本 ， 本 章 和 直接 利用 基于 语义 网 络 所 提供 的 isA 关 系 。 假 如 语义 网 提供 了 “apple” 以 相同 概率 属于 
fruit、tree 和 company， 那 么 惑 可 以 把 逢 文本 “apple” 概 念 化 成 一 种 包含 fruit、tree 和 company 且 三 者 权重 相等 的 概念 袋 。 
因此 ， 在 这 种 方法 中 原始 词 和 产生 的 概念 之 间 的 关系 是 严格 的 isA 关 系 。 除 了 这 些 isA 关 系 ， 我 们 还 可 以 利用 大 规模 共 现 网 络 。 通 
过 控 据 诸如 ( "surface" , "ms" ). (“nexus”，“google”) 等 高 频数 据 对 ， 可 以 了 解 (device, company) 是 一 种 
常见 的 语义 模式 。 因 此 这 样 可 以 对 很 多 短文 本 如 “ipad apple” 中 的 “apple” 进 行 概 念 消 歧 ， 以 避免 用 不 正确 的 概念 匹配 。 即 
使 输入 的 短文 本 是 稀 开 的 、 有 噪声 的 以 及 包 仿 歧义 的 ， 这 种 方法 仍然 可 以 把 它 转 化 为 丰富 、 明 确 和 精确 的 表示 ， 然 后 基于 这 样 的 
语义 表示 进行 相似 度 计算 。 


除了 有 效 性 ， 性 能 对 搜索 广告 也 是 至 天 重要 的 ， 因 为 在 这 种 情况 下 有 几 十 亿 条 如 查询 和 竞价 天 键 字 的 短文 本 。 除 此 之 外 ， 这 
种 方法 中 每 个 短文 本 都 被 映射 到 概念 空间 以 构成 一 种 语义 表示 。 因 此 ， 基 于 这 种 语义 表示 的 短文 本 之 间 的 相似 度 匹 配 比 那些 基于 
in (bag-of-words) (ACF) 进行 匹配 的 万 法 要 更 为 复杂 。 因 此 ， 不 能 简单 地 使 用 给 定 的 查询 和 所 有 苋 价 天 键 字 计算 相 
似 度 得 分 ， 而 应 该 有 效 地 利用 局 部 敏感 散 列 (LSH) 来 选择 一 小 部 分 相关 的 竞价 关键 字 ， 再 进行 更 仔细 的 排序 。 


Sz CAA, ARES TORY T : 


: 提出 了 一 种 新 的 查询 与 竞价 关键 字 匹 配 的 方法 。 这 种 方法 更 具有 得 棒 性 ， A: (利用 Web 规 模 数 据 驱动 的 知识 库 (data- 
driven knowledgebases) ; @) 通 过 比 弱 isSA 关 系 更 加 可 靠 的 严格 iSA 关 系 概 念 化 文本 。 


C 提出 了 概念 化 的 一 种 新 算法 。 通 过 利用 分 类 和 共 现 网 络 ， 这 种 算法 根据 isA 关 系 和 上 下 文 将 每 个 实体 映射 到 适当 的 概念 


. 实验 结果 表明 ， 这 种 方法 可 以 将 各 种 查询 (包括 头 查 询 和 长 尾 查询 ) 都 匹配 到 相关 的 竞价 关键 宇 上 。 这 对 目前 的 付费 搜索 
广告 系统 是 非常 关键 的 ， 因 为 对 长 尾 查 询 选 树 有 针对 性 的 广告 是 目前 的 主要 瓶颈 。 


C 这 种 方法 可 以 扩展 到 大 规模 数据 集 。 目 前 ， 本 章 所 提 方 法 已 在 一 个 商业 搜索 引擎 的 广告 系统 中 测试 ， 可 将 3000 万 查询 与 7 


亿 竞 价 关键 字 进 行 匹配 。 


本 章 组 织 如 下 : 7.2 节 简要 介绍 采用 的 语义 网 络 ;，7.3 节 提出 系统 架构 ;7.4 节 提出 概念 化 算法 ; 7.5 节 描述 对 给 定 查 询 检 索 竞 
价 天 键 字 的 算法 ; 7.6 节 回顾 相关 工作 ; 7.7 节 总 结 本 章 和 未 来 工作 。 
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7.2 语义 网 络 


随 着 大 规模 概率 知识 库 及 语义 网 络 的 出 现 ， 如 Probasel1] 和 Yago 上 加， 给 短文 本 理解 带 来 了 新 的 机 会 。 本 章 采 用 Probase 的 
原因 在 于 ， 一 个 巨大 的 概念 空间 对 跨 领 域 竞价 关键 字 的 理解 是 不 可 缺少 的 。Probase 能 够 覆盖 世界 上 大 多 数 的 概念 。 本 章 使 用 的 
这 个 版 本 的 Probase 包 含 了 826 万 个 实体 (如 “windows phone 7" , “ipad” , “kindle” 等 ) 和 约 270 万 个 概念 

(如 “platform”、 “device”、“ebook reader” 等 ) 。 在 本 章 的 其 余部 分 ， 使 用 e 表 示 一 个 实体 ，c 表 示 一 个 概念 。 


所 有 的 实体 和 概念 通过 isA 关 系 分 层 组 织 。 例 如 ，“kindle” 是 “ebook reader” 概 念 的 一 个 实体 。 需 要 注意 到 ，isA 关 系 在 
子 概念 和 概念 之 间 也 存在 (例如 ， 子 概念 “ebook reader” $S "device" 的 一 个 实体 ) 。 与 传统 分 类 法 相 比 ，Probase 所 
包含 的 isSA 关 系 可 以 概率 化 : 


i (e . C ) 


Pr(e | c)— 1) 


(7. 1) 
AET C ) 


Pr(c | e)= J Co) 


其 中 n (c). n (e). n (e, c) 分 别 表示 c 的 频率 、e 的 频率 ， 以 及 从 数 十 亿 Web 网 页 中 提取 的 满足 Hearst patterns 
e 和 c 共 同 出 现 的 频率 。 这 些 概率 有 一 定 的 自然 属性 : P (elc) 反映 了 e 对 给 定 c 的 典型 性 ，P (cle) 反映 了 c 对 给 定 e 的 典型 性 。 


使 用 这 些 概率 作为 基本 组 件 来 对 文本 概念 化 建 模 。 


也 可 以 使 用 Probase 的 实体 共 现 网 络 ， 该 网 络 在 每 个 结 点 是 一 个 Probase 实 体 ， 并 且 两 个 结 点 之 间 的 边 是 实体 之 间 的 共 现 关 
系 。 对 于 826 万 个 实体 ， 从 16.8 亿 网 页 中 提取 它们 的 共 现 关系 。 当 两 个 实体 同时 出 现在 一 句 话 中 时 ， 将 会 对 它们 的 共 现 频率 加 
1。 最 后 得 到 有 286 亿 条 边 的 加 权 网 络 。 经 过 一 些 过 滤 (例如 删除 频率 小 于 等 于 5 的 边 ) ， 最 终 网 络 包 含 大 约 37.3 亿 条 边 。 这 些 共 


现 信息 将 被 用 于 消除 一 个 实体 属于 多 个 概念 的 上 收 义 ， 从 而 避免 概念 噪声 。 
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7.3 “系统 框架 


在 本 节 中 系统 图 ( 见 图 7-1) 展示 了 数据 如 何 通 过 整个 系统 。 与 传统 的 IR 系 统 类 似 ， 它 分 为 在 线 和 离线 的 组 件 。 


在 线 


Big) 
66 ipad apple” 


外 部 资源 


竞价 


Probese 


LAR SRA 5 Fett 
天 键 子 的 LSH 表 


rata EH 


志 数 据 


竞价 关键 字 


“ipad? wifi ” 


图 7-1 整体 系统 架构 


在 离线 处 理 中 ， 概 念 化 每 个 竞价 关键 字 ， 也 融 是 把 每 个 竞价 天 键 字 映射 到 一 组 有 代表 性 的 概念 上 。 这 样 通过 计算 短文 本 相应 
的 概念 集 之 间 的 相似 度 可 估计 两 个 短文 本 之 间 的 相似 度 。 为 达到 大 规模 计算 相似 度 的 目的 ， 利 用 局 部 敏感 散 列 (LSH) 对 竞价 天 
键 子 进行 条 3 引 。LSH 能 够 高 效 地 找到 与 查询 在 概念 空间 上 类 似 的 莞 价 关键 子 。 此 外 ， 还 可 以 通过 点 击 日 志 数 据 来 挖 所 查询 和 这 引 
之 间 的 语义 关联 ( 即 共 同 点 击 关 系 ) 来 支持 高 效 但 找 。 


在 在 线 处 理 部 分 ， 当 一 个 查询 来 临时 ， 首 移 使 用 与 竞价 天 键 字 相 同 的 方式 来 将 其 概念 化 。 然 后 从 大 规模 的 竞价 天 键 字 集 中 通 
过 用 户 行为 数据 (针对 头 查 询 ) 和 LSH (针对 长 属 查询 ) 选取 与 给 定 查 询 相关 的 一 小 部 分 竞价 关键 字 。 最 后 ， 对 候选 项 排名 ， 并 
且 匹 配 排 名 靠 前 的 广告 关键 字 。 


7.4 概念 化 


概念 化 把 词 余 模型 “提升 ”成 概念 八 模 型 ， 是 人 类 认 知 过 程 中 最 基础 的 步骤 。 它 是 针对 短文 本 语义 理解 问题 的 一 个 很 好 的 解 
决 万 案 。 具 体 而 言 ， 它 可 以 处 理 如 下 不 同情 况 : 


(同义词 ) 尽管 字面 上 完全 不 同 , 12 “auto” fe “car 都 可 以 抽象 到 概念 “tool . “vehicle” 4 “transportation” 等 。 


此 ， 在 概念 层次 上 “auto” 与 “catr” 是 能 够 匹配 的 。 


(多 义 词 ) 尽管 字面 上 相似 , 12 "ipadapple" 4&7 "apple" 抽象 到 概念 “device ~ “IT company , mm “apple 
drink” 的 “apple” 则 抽象 到 概念 “fruit” ~ “flavor” 。 因 此 ， 它 们 可 以 在 概念 级 上 做 区 分 。 


为 了 让 机 器 能 如 此 处 理 艳 文本 理解 任务 ， 本 章 使 用 涵 兰 世界 上 大 部 分 概念 的 Probase 来 提供 的 丰富 概念 性 知识 。 


7.4.1 实体 检测 


从 一 个 如 “windows phone app” 的 短文 本 中 ， 检 测 出 不 属于 任何 其 他 实体 的 〈 即 该 实体 不 是 另 一 个 实体 的 子 类 ) 所 有 
Probase 实 体 。 基 于 这 个 规则 ，“windows phone app” 可 以 转换 为 一 组 Probase 实 体 {“windows phone" , "phone 
app”}。 实 际 上 ， 一 个 实体 如 果 和 被 另 一 个 实体 完全 禾 盖 ， 则 这 个 实体 很 可 能 是 修饰 符 或 主题 词 。 而 概念 化 会 把 短文 本 的 表示 从 
词 级 别 “ 提 升 ” 到 概念 级 别 ， 实 体 越 具体 趣 能 避免 产生 “过 度 抽 象 ”的 概念 。 


7.4.2 词义 推导 


首先 将 Probase 进 行 预 处理 ， 将 每 个 实体 的 概念 进行 聚 类 ， 以 便 使 每 个 概念 聚 类 表示 一 种 语义 。 表 7-1 显 示 了 实 
f^ "apple" AEX "tree" , “fruit” #] “company” , 


表 7-1 短文 本 “ipad apple" 的 概念 化 结果 


$1 { device. iso device. apple 


U; = { iphone, mobile phone. ipod. laptop. 
device. platform. tablet device. | . 

. . ipod touch. pdas. smartphones, apple tv. 
e| —1pad mobile device. portable device. 

apples's ipad. phone. notebooks. kindle. 
technology. tablet device. tablet. | 


gadget, +.) 


| U = { peach, mango. pear. cherry, banana, 
| = {tree crop, fruit tree, ***j 


carrot. potato. pecan, sweet potato. ***) 
s2 = l fruit ,food, fresh fruit, fla- | Uz = { grape, banana, orange, strawberry, 
e» =apple vor.juice. snack. healthy snack, | pear. peach. mango, cheese. cherry, choco- 
ej late, ***; 


s3 — (com pany . brand. firm, cor- | U; = (microsoft. ibm. sony. dell. motorola. 


poration .***} google.intel.hp.nokia.cisco.*** | 


对 于 每 个 实体 e， 利 用 isA 关 系 和 上 典型 性 来 聚 类 它 的 相关 概念 。 首 先 ， 通 过 典型 性 (也 束 是 Pr (cle) ) 对 e 的 概念 进行 排序 并 
且 选 择 前 K 个 概念 。K 的 值 通 弟 为 几 十 个 (本 实验 中 值 是 15) ， 然 后 采用 聚合 法 聚 类 这 K 个 概念 。 在 开始 阶段 ， 这 K 个 概念 中 的 任 
何 一 个 都 被 视 为 一 个 独立 的 聚 类 。 接 下 来 ， 如 果 任 何 两 个 概念 之 间 存 在 isA 关 系 ， 则 它们 的 聚 类 将 被 合并 。 


事实 上 ， 主 流 的 分 类 法 ( 目 动 生成 或 手动 创建 ) 数据 干净 但 不 够 完整 。 例 如 ，“conventional input device” 概 念 和 

在 “mouse” 第 一 种 语义 ( 见 表 7-2) 中 的 任何 别 的 概念 之 间 都 不 仓 人 在 isSA 天 系 。 但 是 ， 最 终 可 以 正确 地 将 它们 合并 ， 这 需要 通 
一 个 简单 的 规则 : 如 果 某 一 个 概念 是 另 一 个 概念 的 后 缀 ， 则 一 起 合并 它们 的 聚 类 。 事 实 上 ，“device” 不 仪 

是 “conventional input device” 的 主题 词 ， 而 且 是 “mouse” 第 一 个 词义 中 大 部 分 概念 的 主题 词 。 


这 个 过 程 产生 了 一 个 或 多 个 初始 聚 类 ， 表 7-2 展 示 了 一 些 模 糊 实 体 的 初始 聚 类 。 这 些 初 始 聚 类 中 的 实体 是 它 所 包含 的 所 有 概 
念 的 实体 的 联合 ， 这 样 通过 衡量 与 e 相 关 的 其 他 概念 所 包含 的 实体 与 这 些 聚 类 实体 的 重 蔷 度 ， 束 可 以 将 这 个 概念 分 配 到 它 最 接近 
的 聚 类 中 。 


表 7-2 ”模糊 实体 的 初始 聚 类 


fruit fruit plant warm water fish species cursor control 


peripheral usb 
flavor food x 兴 X X x fish species 
device 


conventional input 


snack fresh fruit vegetable oil wood 
device 


healthy sack plant tropical oil external device 


computer input 


company x X* * * X edible oil musical instrument ww 
device 


brand device plant oil stringed instrument X 兴 * 兴 X 
firm mobile device acoustic instrument mammal 
corporation | smartphones device sound ainmal 


personal digital o. . 
x X X* * X smart phone traditional instrument small animal 
assistant 


tree handheld device platform rodent 


7.4.3 ”消除 歧义 


在 上 述 步 骤 中 ， 已 经 把 短文 本 “ipad apple” 转 变 成 一 组 实体 E={e1= “ipad”，e2= “apple”}， 以 及 它们 的 概念 聚 类 
(如 表 7-1 所 示 ) 。 消 除 歧 义 的 任务 是 识别 语义 模式 POM , AW "apple" GABP "company" 而 不 
是 “tree” 和 “fruit” 。 从 形式 上 而 言 ， 需 要 确定 p= (pi, po) = (1, 3) ， 其 中 pi 未 示 的 是 ei 的 第 个 词义 。 


假设 从 某 个 短文 本 中 检测 出 的 实体 为 “apple” 和 “microsoft”， 可 以 推测 出 “apple” 是 指 “company” 
为 “microsoft” 只 有 一 种 词义 即 “company”。 从 形式 上 而 言 ， 对 每 一 对 实体 (e, e) ， 假 设 e 有 词义 s1，.…，sm， 而 e' 有 词 


| s; 
JSCs; sal ET 
J | s; 


ysis 9 ， 可 以 在 它们 的 每 一 对 词义 之 间 计 算出 一 个 Jaccard 相 似 度 : ， 假 设 词义 对 (Si, s;) 在 两 个 
实体 的 所 有 词义 对 中 达到 最 大 相似 度 ， 并 且 相 似 度 超 过 预 设 的 冰 值 t= 1/3， 分 别 为 e、e' 保 留 s;、* i, 并 且 删 除 它 们 的 所 有 其 他 词 
X. 


但 是 ， 在 大 多 数 情况 下 ， 出 现在 一 个 起 文本 中 的 两 个 词 ， 虽 然 相关 ， 但 并 不 一 定 属于 相同 的 词义 ， 这 融 意 味 着 它们 的 意义 相 
似 度 低 于 预 设 的 国 值 。 例 如 ， 如 果 检 测 到 实体 为 E={“ipad”， “apple”}， 则 无 法 消除 “apple” 的 收 义 ， 
为 “device” 和 “company” 并 不 相似 ， 所 以 它们 的 相似 度 值 衣 定 低 于 预 设 的 阔 值 。 在 这 种 情况 下 ， 除 了 “apple” 是 一 
个 “company” 和 “ipad” 是 一 个 “device” 的 知识 ， 人 类 能 通过 知道 “ipad” 是 “apple” 一 个 产品 推测 语义 ， 而 机 器 则 不 
一 定 知 道 这 种 关联 。 为 了 解决 这 个 问题 ， 本 草 提出 一 种 通过 上 下 文联 系 (contextual-continuity, CC) 来 挖掘 语义 模式 ， 从 而 
帮助 机 器 推测 语义 。 这 个 方法 基于 如 下 观察 : 在 数据 集中 存在 很 多 符合 语义 模式 “device-company” 的 实体 对 ， 并 且 这 些 实体 
对 是 无 歧义 的 ,如 “kindle amazon" , “surface microsoft" , “nexus google” 等 。 在 这 些 实体 对 中 ，“amazon” , 
“microsoft” 及 “google” 的 词义 是 “company”， 而 “kindle”、“nexus” 的 词义 是 “device”。 通 过 以 上 观察 ， 可 以 友 
现 如 果 一 个 词义 对 ( 即 语 义 模 式 ) 所 包含 的 代表 性 实体 有 很 高 的 共 现 性 ， 则 这 个 词义 对 有 很 强 的 上 下 文 连 贯 性 。 因 此 ， 通 过 使 用 
前 面 提 到 的 网 络 实体 共 现 可 以 衡量 语 境 连续 性 ， 把 网 络 表 示 成 一 个 市 加 权 边 的 有 辐 图 ， 其 中 每 个 顶点 代表 一 个 实体 ， 边 的 权重 
(u, v) 表示 实体 u 和 的 闪现 频率 。 则 实体 ,的 总 出 现 次 数 可 以 通过 果 加 其 所 有 边 的 权重 得 到 : “他”, 

接 下 来 ， 假 设 一 个 实体 e 有 词义 s1，…，sm， 对 每 一 种 词义 s 都 可 以 用 一 组 代表 性 的 实体 〈 记 为 Ui) 表示 它 。Ui 中 的 元 素 为 使 
得 Pr (ule, s) 最 大 的 top-k 个 络 点 uU_ (UGG) 。 基 于 独立 性 假设 ，Pr (ule, s) 可 以 通过 如 下 公式 计算 : 


Pru | es s;) cc PrCu) Pre, s; | 42 = Pria) Prle | u) || Pr u) 


qm 


其 中 ，Pr (u) . Pr (clu) 根据 出 现 次 数 和 典型 性 可 以 直接 计算 得 到 ， 概 率 Pr (elu) TB ea RAIA AR 


wlu.e) 
Pr(e | u ) = ———— 


顶点 近似 估计 出 ， 其 中 ， 基 于 直接 相 邻 顶点 的 概率 为 ww) ， 基 于 间接 相 邻 项 点 的 概率 为 
- wlvse)wlu-v) 
Uie OTE SO) vG0 。 表 7-1 最 后 - 列 展示 了 不 同 词义 所 包含 的 排名 靠 前 的 顶点 。 正 如 看 到 那样 ， 它 们 是 相应 词义 的 代 


表 性 实体 。 因 此 ， 给 出 的 两 个 实体 e 有 词义 s1，.…，sm， 而 e 有 词义 ;1'，““， 5s» 定义 CC 的 计算 方式 如 下 : 


i / 1 / / Y/Y 
LCS. ^ Spes du cueu; «evo Pru | € 5; )Pr(v | € s» Sj )C Cu ` vU) 


(3) 


( (uv) =w(u.v)log|—— | log. 
i Cu ) J 


W 
其 中 wv)J， 用 于 计算 C (u, v) 的 加 权 方 法 类 似 于 TF-IDF， 共 现 频率 w (u, v) 相当 于 词 频 
(TF) ， 其 他 参数 功能 类 似 逆 文档 频率 (IDF) 。 由 此 ， 给 定 一 个 短文 本 可 以 解析 得 到 ， 一 组 实体 E={e1，...，ep}， 骨 根据 式 
(7.4) 对 这 些 实体 选择 词义 ( 即 消 歧 ) : 


D 
p 一 arg max >) max CC(s, . s,.) CT. d) 
p ] 


JF 


p a 
根据 p* 为 每 个 实体 选择 词义 并 且 表 示 成 (s1，.…，sD) 。 则 该 短文 本 可 以 表示 为 其 所 有 实体 的 词义 集合 Saas a 。 通 过 这 
一 概念 化 过 程 ， 最 终 把 短文 本 从 词 袋 “提升 ”到 概念 安 。 


由 此 ， 短 文本 t 通 过 概念 化 转 为 一 个 概念 向 量 : 


Conceptualize(?) =Ü as; = 2 C: (1, 5) 


i=] 


其 中 cj 为 词义 s 的 概念 向 量 ， 这 个 向 量 中 的 每 一 个 元 素 是 由 Probase 中 isA 天 系 导出 的 典型 性 Pr (clei) 。 


7.5 检索 


通过 概念 化 ， 能 够 把 每 个 短文 本 〈 得 询 或 竞价 天 键 字 ) 转换 成 概念 向 量 。 因 此 ， 通 过 比较 概念 同 量 的 相似 度 ， 束 可 以 得 到 短 
文本 之 间 的 语义 相似 度 ， 从 而 可 以 从 碍 询 检索 出 最 相似 竞价 关键 字 。 


在 实际 过 程 中 ， 搜 索引 擎 离线 扩展 了 大 量 的 历史 至 询 ， 以 便当 一 个 得 询 提交 时 ， 如 果 乙 前 该 查询 已 经 出 现 过 ( 即 离线 预 处 理 
的 结果 ) ， 它 们 能 够 立即 知道 相关 的 竞价 天 键 字 。 而 在 离线 处 理 中 ， 为 3 干 万 查询 Q={q} 匹 配 7 亿 竞 价 天 键 字 P={p}， 单 规 方法 需 
要 O (|P|IQ|) 的 比较 次 数 。 尽 管 可 以 利用 map/reduce 集 群 ， 由 于 需要 将 概念 化 天 键 字 集 P 放 入 每 个 结 氮 的 内 仔 ， 通 信 成 本 非常 
高 并 且 改 善 有 限 。 而 构建 从 Probase 概 念 到 竞价 关键 字 映 射 的 倒序 似乎 有 帮助 ， 但 是 数据 不 平衡 将 大 大 减弱 它 的 优势 。 此 外 ， 倒 
排 索 引 需 要 定期 更 新 ， 因 此 花费 数 十 天 的 预 处 理 过 程 是 不 合适 的 。 


因此 ， 本 章 提出 一 种 两 阶段 的 方法 来 对 给 定 的 查询 q 获 取 相 关 的 竞价 天 键 字 。 首 先 ， 用 特定 方法 选择 一 个 小 的 候选 竞价 天 键 
集 。 其 次 ， 再 用 查询 q 计 算 与 候选 项 的 语义 相似 度 ， 并 进行 排名 和 返回 top-k 个 竞价 关键 字 。 这 种 方法 既 可 以 在 可 接受 时 间 内 离 
线 处 理 海量 查询 集 ， 也 可 以 在 在 线 运 行 时 处 理 未 见 过 的 查询 。 


在 第 一 个 阶段 ， 选 择 的 候选 莞 价 关键 字 集 合 要 足够 小 ， 以 便 第 二 阶段 的 计算 成 本 被 压缩 到 最 小 ， 同 时 确保 候选 范 价 关键 字 集 
能 够 足够 真实 地 莉 匡 相 关 的 竞价 天 键 字 。 对 于 热 门 查询 ， 候 选集 的 选择 方法 是 利用 用 户 行 为 数据 ， 对 于 长 尾 查 询 ， 则 是 通过 构建 
语义 系 引 来 友 掘 候选 集 。 


7.5.1 基于 氮 击 数 据 的 候选 竞价 天 键 字 选择 


通过 点 击 数据 可 以 发 现 头 查询 (head query) 的 候选 竞价 关键 字 。 用 户 点 击 数据 提供 了 查询 和 URLIj 之 间 的 关联 。 基 于 点 
击 数据 的 候选 竞价 关键 字 选 择 (CSCD) 方法 基于 “点 击 相 同 URLs 的 查询 是 语义 相关 的 ”这 一 假设 。 具 体 做 法 是 得 到 点 击 数据 
{(q，9'，u, f) }， 其 中 f 是 q 和 9' 点 击 到 u 的 次 数 ， 然 后 为 这 一 数据 建立 一 个 倒 排 条 引 。 给 定 一 个 查询 ， 则 从 倒 排 过 引进 行 查 
找 。 假 设 该 查询 存在 于 这 引 中 ， 则 对 点 击 过 相同 URL 的 其 他 查询 ， 使 用 精确 匹配 核对 它 是 否 是 一 个 竞价 关键 子 ， 并 且 选 择 那 些 是 
竞价 天 键 字 的 作为 该 查 询 的 候选 项 。 如 果 得 询 在 倒 排 索引 中 不 仓 在 ( 即 它 是 个 长 尾 查 询 ) ， 则 转 到 第 二 候选 方法 中 。 


[1] Fuxman A, Tsaparas P, Achan K, et al.Using The Wisdom of The Crowds for Keyword Generation LC] .Proceedings of The 17th 


International Conference on World Wide Web. ACM, 2008: 61-70. 


7.5.2 ZTWUSBJ NAEP 


长 尾 查 询 通 过 相关 联 的 概念 集合 来 选择 候选 竞价 关键 字 集合 。 具 体 而 言 ， 可 以 这 样 假设 ， 两 个 短文 本 的 概念 集 越 相似 ， 这 两 


(JSC ps pot rl 


个 短文 本 融 越 相 天 。 人 在 这 种 假设 下 利用 Jaccard 相 似 度 »Ua« | 并 且 选 择 一 个 阔 值 T=0.8， 对 于 每 个 给 定 的 查询 q， 满 


足 fpEPJUS (p, q) zt 的 成 员 有 资格 成 为 q 的 候选 竞价 关键 字 。 

为 了 高 效 地 选择 竞价 关键 字 {pEP|JS (p, q) > 甘 ， 可 以 利用 LSH 来 实现 。LSH 是 主要 依靠 最 小 散 列 族 F 和 显 带 技术 
(banding technique) ID] 的 近似 算法 。 如 果 任 选 F 中 的 某 一 最 小 散 列 函数 f (.) ， 满 足 Y P 
| q, Pr (f (p) =f (a) ) -JS (p, q) ， 则 意味 着 f (.) 保持 了 原始 的 基于 概念 的 语义 相似 度 。 为 了 计算 LSH 签 名 ， 首 先 从 F 
重复 选取 rx b 最 小 散 列 函数 ， 然 后 把 它们 分 为 b 个 显 带 并 且 每 个 显 带 有 "个 最 小 散 列 函 数 ， 即 Band; C) = (fa ©, 
ea fir C) ) 。 因 此 ， V P, q, Pr (Band; (p) =Band; (q) ) =JS (p, q) '. 最 后 ， 短 文本 p、q 在 散 列表 中 冲突 ( 即 具有 
相同 的 签名 ) 的 情况 定义 如 下 : 


Sig p) =Sig(qde di =1, «+, b s.t. Band; Cp) = Band; (q) 


因此 ， 给 定 一 个 查询 q， 假 设 一 个 竞价 关键 字 p 满 足 JS (p, a) =d, 那么 Pr (Sig (q) =Sig (p) ) =1- (1-d') P。 在 具体 
实现 中 ， 本 章 令 r=8 并 且 b=16， 则 冲突 概率 是 关于 d 的 一 个 国 数 ， 显 示 为 9 型 曲线 ( 见 图 7-2) 。 
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图 7-2 Pr [Sig (p) =Sig (q) ] =1- (1-d9) P 


对 于 所 有 的 pEP 预 先 计 算 LSH 签 名 。 对 于 每 个 Band;， 将 其 索引 看 成 是 形式 如 (key: x, value: {pEpPlBandi (p) =x) 的 
键 值 对 。 通 过 键 值 对 内 存 对 象 缓存 系统 上 在 特定 机 器 中 维持 每 个 Band 索 引 。 在 运行 时 ， 当 遇 到 查询 q， 首 先 计算 它 的 概念 集 
LSH 等 名 ， 在 将 每 个 Bandi 分 别 分 配 到 它 相应 的 索引 和 存储 机 器 。 对 于 每 个 Band 分 别 核对 Bandi (q) 是 否 正好 是 某 个 键 值 对 的 
键 ， 如 果 是 则 这 个 键 值 对 的 值 ( 即 {tpEPlBandi (p) =Bandi (q) }) 会 被 考虑 作为 一 个 候选 。 然 后 精确 计算 查询 q 与 这 些 竞 价 短 
语 Jaccard 相 似 度 ， 并 且 最 多 返回 100 条 竞价 关键 字 作 为 候选 项 。 最 后 合并 从 b 人 台 机 器 返回 的 结果 ， 并 且 通 过 它们 的 Jaccard 相 似 
度 值 降序 排列 这 些 竞 价 关 键 字 ， 最 前 面 的 100 条 竞价 关键 字 航 选中 作为 最 终 的 查询 候选 项 。 通 过 LsH 方 案 代 蔡 了 繁琐 的 计算 ， 还 
能 以 平行 方式 在 b 台 机 器 同时 处 理 ， 因 而 大 大 提高 了 效率 。 

[1] Rajaraman A, Ullman J D.Mining of Massive Datasets |M] .Cambridge University Press, 2012. 
[2] Broder A Z.On the Resemblance and Containment of Documents [C] .Compression and Complexity of Sequences 1997.1EEE , 1997: 
21-29. 


[3] Shao B, Wang H, Li Y.Trinity: A Distributed Graph Engine on A Memory Cloud LC] .Proceedings of the 2013 ACM SIGMOD 


International Conference on Management of Data. ACM, 2013: 505-516. 


7.5.3 HES 


最 后 ， 为 每 个 给 定 查 询 以 及 对 应 的 候选 竞价 天 键 字 计算 一 个 语义 匹配 得 分 (Semantic-Matching Score, SMS) 。 然 后 根 
据 候 选项 对 应 的 语义 匹配 得 分 进行 降序 排列 ， 并 且 选 择 排名 靠 前 的 天 键 字 作 为 结果 。 直 观 上 ， 语 义 匹配 得 分 应 该 和 短文 本 的 语义 
相似 度 成 比例 。 由 于 每 个 短文 本 被 特征 化 一 个 概念 向 量 ， 通 过 计算 它们 相应 概念 向 量 之 间 的 相似 度 可 以 估算 短文 本 之 间 的 相似 
度 。 从 形式 上 而 言 ， 对 于 每 个 查询 q 和 竞价 关键 字 p， 它 们 对 应 的 概念 向 量 表示 为 Conceptualize (q) 和 Conceptualize (p) , 
则 它们 的 语义 匹配 得 分 定义 如 下 : 


SMS(g, p) =cos(Conceptualize(q), Conceptualize( p )) 


7.6 相关 工作 


本 章 提 出 的 技术 主要 与 搜索 广告 和 文本 理解 相关 。 


因为 查询 的 平均 长 度 是 2011， 查 询 扩展 已 经 被 认为 是 解决 文字 不 匹配 问题 哺 的 一 种 有 效 的 方法 。 现 有 的 方法 主要 集中 在 用 各 
种 外 部 数据 源 来 扩展 查询 ， 包 括 原始 搜索 结果 中国 、 用 户 行为 数据 Po 和 关键 字 与 广告 之 间 的 竞价 关系 局 等 。Ricardo 等 
人 口 | 建议 通过 聚合 点 击 URL 的 加 权 词 向 量 来 代表 查询 ， 这 样 可 以 同时 利用 了 搜索 结果 和 用 户 行为 数据 。 然 而 ， 在 大 多 数 情 况 下 ， 
那些 少见 但 在 查询 量 中 又 占有 显著 比例 (10 的 长 尾 查 询 没 有 足够 的 用 户 行为 数据 。 


更 重要 的 是 ,很 多 查询 处 理 任务 和 关键 字 研究 的 关键 问题 是 计算 短文 本 之 间 的 相似 性 。 以 前 的 工作 主要 集中 在 计算 大 型 文档 
或 个 别 文字 [ 的 文本 语义 相似 度 上 ， 因 为 查询 和 竞价 关键 字 太 短 而 不 能 得 出 可 靠 的 统计 信号 。LSA 方 法 M4 站 “对 于 短文 本 片 
段 做 索引 不 是 一 个 有 效 的 方法 。 除 了 基于 语料库 的 方法 ， 用 于 计算 短文 本 语义 相似 度 的 现 有 方法 很 大 程度 上 是 基于 知识 
gN Nen 8。 常用 的 知识 库 包 括 WordNet、open directory project (ODP) 以 及 Wikipedia。Chen 等 人 013 指出 ， 基 于 知 


识 型 方法 的 效果 受 所 使 用 的 概念 层次 的 覆盖 率 和 精度 影响 显著 。 本 章 中 的 方法 模型 和 短文 本 排序 在 Probasel<0 概 率 语义 网 络 的 
帮助 下 ， 能 够 有 效 利用 目前 最 大 的 概念 空间 。 除 此 之 外 ， 大 部 分 基于 知识 的 方法 映射 短文 本 到 它们 的 概念 空间 ， 是 基于 与 原始 文 
本 中 的 词 共同 出 现 的 文章 或 网 页 的 概念 。 考 虑 到 查询 和 竞价 关键 字 是 非常 短 的 ， 这 样 的 方案 显然 是 不 合理 的 。 
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7.7 小 结 


本 章 提出 了 一 种 匹配 得 询 和 相 天 竞价 关键 字 的 新 方法 。 实 验 结果 表明 ， 访 方法 无 论 对 热门 还 是 冷门 查询 都 能 成 功 地 为 每 个 给 
定 碍 询 选择 相 天 但 是 又 不 是 特别 明显 的 竞价 关键 字 。 大 多 数 现 有 方法 由 于 利用 历史 数据 而 不 能 被 应 用 于 长 尾 得 询 ， 因 此 本 章 广 法 
的 有 效 性 证 实 了 语义 知识 在 搜索 广告 中 是 必 不 可 少 的 。 


未 来 ， 可 以 进一步 优化 本 章 所 提出 的 排序 函数 ( 即 语义 匹配 得 分 ，SMS) 。 在 本 章 方 法 中 ， 一 个 短文 本 被 建 模 成 Probase 的 
概念 空间 中 的 一 个 点 (向量 ) 。 把 语义 匹配 得 分 定义 成 两 个 短文 本 之 间 的 夹 角 也 许 并 不 是 最 完美 的 ， 因 为 概念 向 量 中 的 元 素 并 不 
是 相互 独立 的 ， 未 来 可 以 把 不 同 概念 之 间 的 关系 也 考虑 进来 。 


Soe ”短文 本 理解 研究 展望 


短文 本 理解 是 机 器 实现 人 工 智 能 的 一 个 重要 组 成 部 分 。 针 对 机 器 智能 的 特质 ， 目 动 化 的 短文 本 理解 可 被 定义 为 将 文本 转化 为 
任何 机 器 可 以 获取 其 合 义 的 编码 形式 。 基 于 此 ， 大 量 先前 工作 (如 LSA 模 型 、NLM、LDA 模 型 等 ) 通过 挖掘 文本 数据 中 的 隐藏 信 
息 ， 获 取 词 与 词 、 词 与 文本 之 间 的 联系 ， 从 而 获取 短文 本 编码 。 与 此 同时 ， 另 一 方向 的 研究 (ESA， 概 念 化 ) 使 用 知识 库 来 获取 
明确 的 词汇 语义 知识 ， 从 而 辅助 短文 本 理解 。 尽 管 如 此 ， 何 为 最 有 效 的 短文 本 解释 方式 仍 有 答 探 索 。 本 章 将 尝试 从 两 个 方面 讨论 
短文 本 理解 领域 的 未 来 工作 。 


8.1 ARIES 


由 于 短文 本 包含 词 数 较 少 ， 因 此 知识 对 短文 本 的 理解 不 可 或 缺 。 


一 方面 ， 传 统 的 知识 库 (如 WordNet、Freebase、Yago 等 ) 往往 包 售 大 量 与 实体 相关 的 事实 ,但 机 器 无 法 直接 根据 这 些 
非 黑 即 白 的 事实 进行 线 上 推测 。 另 一 方面 ， 基 于 词汇 的 语义 网 络 ， 如 KnowltAll、NELL 和 Probase， 滨 试 捕捉 人 类 大 脑 中 的 常 
识 。 它 们 希望 让 机 器 更 好 地 理解 人 类 的 沟通 ， 而 个 仅仅 基于 文字 本 身 进行 计算 。 这 些 语义 网 络 是 面向 目 然 语言 的 ， 并 且 通 弟 与 一 
些 统计 信息 有 关 ， 如 共 现 次 数 。 通 过 这 些 信息 ， 机 器 可 以 通过 语义 网 中 的 概率 进行 在 线 推导 。 


目前 ， 虽 然 已 经 有 一 些 基于 语义 知识 网 来 进行 短文 理解 的 工作 [NISDBI 册 ， 但 这 些 工作 仍然 比较 初步 ， 多 是 基于 一 些 观察 所 构 
建 的 模型 ， 缺 乏 系统 性 理论 支持 。 未 来 工作 可 深入 探索 语义 网 在 解读 短文 本 工作 上 的 应 用 ， 从 而 构建 一 套 完备 的 理论 模型 。 
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8.2. 显 性 知识 和 隐 性 台 识 的 结合 


从 另 一 个 角度 而 言 ， 如 上 文 所 述 ， 机 器 可 获取 的 知识 包含 了 显 性 知识 和 隐 性 知识 。 未 来 工作 应 着 重 探索 二 者 的 结合 以 完善 短 
文本 含义 的 表示 方式 。 


1. 显 性 知识 改进 隐 性 模型 


显 性 知识 库 可 以 用 来 完善 隐 性 的 空间 向 量 。 换 言 之 ， 向 量 应 以 某 种 方式 反映 知识 库 中 实体 间 的 关系 。 例 如 ，Bian 等 的 工 
作 员 使 用 WordNet 中 的 词汇 关系 作为 限制 来 辅助 NLM 的 训练 ， 使 得 这 些 词汇 关系 (如 同义词 关系 ) 能 够 在 训练 所 得 的 词 向 量 中 


得 以 体现 。 


2. 隐 性 知识 改进 显 性 模型 


隐 性 空间 向 量 可 以 帮助 提高 概念 化 的 准确 性 。 例 如 ，Cheng 等 四 使 用 改进 的 NLM 将 Probase 的 实体 和 概念 ， 以 及 文本 中 的 
其 他 词 均 映 射 至 统一 的 向 量 空 间 。 在 这 样 的 设置 下 ， 对 于 某 一 实体 词 ， 其 语 境 词 与 概念 的 相关 性 可 以 很 容易 地 使 用 空间 距离 度 
量 。 这 一 结合 语 境 判 断 概念 的 方法 有 潜力 提升 概念 化 的 效果 。 


如 图 8-1 所 示 ， 未 来 工作 应 围绕 强调 显 性 和 隐 性 知识 的 联系 ,构建 能 够 更 准确 体现 真实 的 词 与 概念 语义 的 同 量 空间 ， 提 升 将 
短文 本 转换 成 机 器 内 部 表示 这 一 环节 的 准确 性 。 


综 上 所 述 ， 随 着 短文 本 数据 迅猛 增长 ， 短 文本 理解 研究 是 近年 来 的 一 个 研究 热 操 。 这 也 是 基于 关键 字 的 搜索 技术 达到 一 定 撼 
颈 乙 后 的 必然 选择 。 目 前 虽然 已 经 有 一 些 相关 工作 关注 这 一 挑战 性 问题 ， 但 仍 有 许多 未 解难 题 有 待 将 来 进一步 研究 解决 。 


隐 性 方法 | 《 O BEDA 


理解 ( 内 部 表示 ) 


图 8-1 未 来 工作 : 结合 显 性 和 隐 性 知识 辅助 短文 本 理解 
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